目前,一些公司和组织已开发出多款文本生成图像模型。比如,谷歌在 2022 年接连发布了名为 Imagen 和 Parti 的图像生成器。OpenAI 也在今年发布了 DALL-E 的升级版 DALL-E 2。
这些 AI 模型都可以依照简单的自然语言文本描述,来生成不同艺术风格的逼真图像。
比如,根据文字“一幅毕加索风格的鹦鹉翻转煎饼的画作”,DALL-E 2 可输出以下图片。
(来源:OpenAI)
对于这个问题,OpenAI 告诉媒体,未来的 DALL-E 版本很可能会纠正这个问题,特别是因为它的大语言模型 GPT-3 团队有着丰富的文本生成专业知识。
然后,在科学知识理解上,也许 DALL-E 2 能较容易地描绘宇航员漂浮在太空或掉落的物体坠落,但当涉及一个解剖图、X 射线图像或数学证明等比较实际的科学问题时,模型所产生的图像表面看似正确,但从根本上说都是错误的。
比如要求 DALL-E 2 提供“按比例绘制的太阳系插图”。如下图所示,该 AI 系统返回了一系列非常拥挤和奇怪的行星,包括左上角的类似煮熟鸡蛋的东西和左下角的奇怪地球。
花粉社群VIP加油站
猜你喜欢