花粉乐分享平台宣传视频
> 乐学堂 > > 官方论文代码放出,OpenAI是如何实现图像版GPT-3的?
官方论文代码放出,OpenAI是如何实现图像版GPT-3的?
来源:机器之心Pro
2023-05-05 15:16:48
226
管理

机器之心报道

机器之心编辑部

OpenAI 放出 DALL-E 的部分论文与实现代码。

今年年初,OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像,效果十分惊艳。

如输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。

如果 GPT-3 一样,大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。

经过近两个月的等待,DALL-E 的论文和代码终于新鲜出炉!

不过此项目正在更新,截止发稿时 DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分,而 Transformer 代码部分还没有公开。除此以外数据集也不能使用。而论文也是公布了 d-VAE 的论文。

项目地址:https://github.com/openai/DALL-E论文地址:https://arxiv.org/abs/2102.12092

只能期待后续 OpenAI 公开更多的技术细节。

DALL-E 部分代码已开源

这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前,需要先安装软件包,代码如下:

pip install git https://github.com/openai/DALL-E.git

解码器、编码器代码

d-VAE 论文

年初在论文还没有公开的情况下,就有人开始复现,他们复现的依据来自某博主制作的油管视频,在视频中,对 DALL·E 的原理结构进行了猜测。那么,现在论文已公开,是否颠覆了他的预想。

传统上,文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息,例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法,将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下,当以 zero-shot 方式评估时, 该研究提出的方法与以前的领域特定模型具有相当的竞争力。

花粉社群VIP加油站

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
凡本网注明 “来源:XXX(非花粉乐分享)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
QQ:2443165046 邮箱:info@hflfx.com
关于作者
Queen(采蜜高手)
文章
886
主题
9
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行
随手拍
54个圈友 0个话题
华为手机随手拍,记录生活点滴之美好
华为P30pro
51个圈友 0个话题
这里是华为P30pro手机交流圈,欢迎华为P30pro用户进群交流
体验官
60个圈友 2个话题
华为花粉体验官,体验官专属的交流群
登录后查看您创建的圈子
登录后查看您创建的圈子
所有圈子
猜你喜欢
杭州互联网违法和不良信息举报平台 网络110报警服务 浙ICP备17046585号
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索