DALL·E

DALL-E模型是GPT-3的多模态实现，共拥有120亿个参数，使用从网络上收集的文本和图像对进行训练。它使用零样本学习从描述和提示中生成输出，而无需进一步训练。 DALL-E会根据提示生成多个图像，之后由CLIP模型对这些图像进行排序。 CLIP模型使用了超过4亿对图像和文本进行训练。

We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.