图源:Youtube
看完以上案例,有人可能会说OpenAI新平台生成的图像似乎在真实度和画面细节方面并不出彩,甚至有些依靠“Q版”图耍小聪明的嫌疑。但这其实只是由于在提示中未规定画面风格的缘故。在生成写实图像方面,新平台的能力也完全不亚于目前的主流文生图工具。
图源:Youtube
图源:OpenAI
在这篇名为《Consistency Models》的论文中,OpenAI提到,一致性模型在训练速度上覆盖了扩散模型,能够“一步生成”,能够比扩散模型更快实现简单任务,且所用计算量要少10-2000倍。此外,一致性模型也允许“多步采样”,以计算换取样本质量。因此即使没有迭代过程,一致性模型也可以产生高质量结果,并能快速适用于实时任务。
图源:OpenAI
与扩散模型相同,一致性模型也支持零样本数据编辑。例如在修补、着色或超分辨率任务中,一致性模型可以从预先训练的扩散模型中提取数据,也可以单独进行训练。根据OpenAI的说法,一致性模型能在所有非对抗性单步生成任务中胜过扩散模型。
图源:OpenAI
并且以上所提到的两种训练方式都将“对抗训练”从中删除了。这是由于对抗训练过程较为复杂,虽然这更易于产生强大的神经网络,但对抗训练的方式也会导致模型预测的准确率下降。部分业内人士认为,这便是OpenAI新平台能够在处理连贯任务和遵循提示方面表现得更好的主要原因。
除此之外,一个没有太多依据的猜测是,在Dall-E 2发布的几个月前,OpenAI发表了几篇关于扩散模型的论文。如果从时间维度推测,新平台则很可能利用了全新的一致性模型。当然,以上这些也只是目前业内的普遍猜测,在OpenAI官方发声之前,估计我们也很难了解到更多关于该平台的技术细节。
3、还没有完全准备好而对于OpenAI为何要如此隐蔽的对该平台进行测试,根据博主MattVidPro的说法以及几个相关的图片案例来看,目前该平台似乎仍未完成全部的开发工作,一些细节方面的问题依然有待进一步完善。
首先便是一直以来都困扰着生成模型的“画手”问题,虽然在大部分情况下表现还算不错,但新平台偶尔也会在生成人物手部细节时犯错误。例如在这张“打喷嚏的粉发少女”中,我们可以清晰地看到人物的手指被描绘成了六根。
图源:Youtube
除此之外,根据粉丝的透露,目前该平台还没有设置任何安全限制,能够生成包含血腥暴力、色情等敏感元素的图像,甚至有时一些敏感图像会在没有提示的情况下弹出。视频中,MattVidPro分享了一张相对委婉的生成图像,并表示一些“有点出格的作品”并不方便公开展示。
图源:Youtube
对于向来以追求极致而著称的OpenAI来说,显然目前该平台的部分能力以及安全性还没有达到他们最终所希望的水平。这也就可以解释为什么OpenAI会选择进行相对隐蔽的测试行为且没有进行对外的公开发声了。
4、赢者通吃:OpenAI的下一步对于OpenAI的下一步计划,不少网友也在Youtube上留下了自己的观点。部分人认为,由于GPT4目前已具有了多模态信息处理能力,OpenAI很可能会基于新平台在下一版ChatGPT中集成强大的AI生成图功能。
另一部分人则认为,OpenAI也可能会基于新平台开发全新的AI生成图产品(或是Dall E-3),与Midjourney、Stable Diffusion等产品竞争并瓜分剩余市场,以进一步提升公司的盈利能力。毕竟目前ChatGPT的用户增长速率已达到了一个阶段性的瓶颈。
总之,虽然就目前看来,OpenAI的这个全新AI生成图平台仍需要进行一些微调以及安全功能的引入,但平台所流露出的信息已经在业内引起了一些积极的反响,并收获了比现阶段主流文生图产品更高的评价。有专家预测该平台或将在今年年底正式对用户开放。
图源:Youtube
不难看出,如今的科技巨头们在人工智能方面的追求已不再满足于单纯的语言模型,而是将攫取的枝杈伸展到了更广阔的领域。无论是OpenAI正在测试的全新AI生成图平台,亦或是Meta刚刚开源的文生音乐模型Audiocraft,都表明着人工智能的未来将在更丰富的模态上开花结果。
参考链接:https://www.youtube.com/watch?v=koR1_JBe2j0
https://analyticsindiamag.com/openais-secret-image-generation-tool-to-debut-soon/
https://the-decoder.com/heres-how-openais-dall-e-3-could-leapfrog-the-competition/
来源: 51CTO技术栈
花粉社群VIP加油站
猜你喜欢