DALL·E
DALL-E模型是GPT-3的多模态实现,共拥有120亿个参数,使用从网络上收集的文本和图像对进行训练。 它使用零样本学习从描述和提示中生成输出,而无需进一步训练。 DALL-E会根据提示生成多个图像,之后由CLIP模型对这些图像进行排序。 CLIP模型使用了超过4亿对图像和文本进行训练。
We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language.