谷歌发布最大语言模型：等于9个GPT-3，训练成本却低得多-花粉乐享

> 乐学堂 > > 谷歌发布最大语言模型：等于9个GPT-3，训练成本却低得多

谷歌发布最大语言模型：等于9个GPT-3，训练成本却低得多

来源：量子位

2023-04-23 18:09:03

303

管理

杨净发自凹非寺量子位报道 | 公众号 QbitAI

今天，谷歌大脑声称，他们新技术能训练万亿级参数的语言模型。

万亿级，什么概念？

烧了微软10000张显卡的GPT-3，也不过1750亿参数。

现在，他们将这参数量扩大到9倍——16000亿参数。

这一语言模型正是Switch Transformer，自称是迄今为止最大的模型，其预训练速度是谷歌以前开发的最大语言模型（T5-XXL）的4倍。

Switch Transformer的创新之处在于，它有效利用了一些硬件，比如GPU和谷歌的TPU等为稠密矩阵乘法设计的硬件。

在分布式训练设置中，模型的稀疏激活层在不同设备上分配唯一的权重。所以，模型权重随设备数量的增加而增加，同时在每个设备上保持可管理的内存和计算空间。

接着，研究人员使用了32个TPU内核在一个数据集上预训练了几个不同的Switch Transformer模型。

这一数据集叫做Colossal Clean Crawled Corpus，750GB大小，包含了从Reddit、维基百科和其他网络资源中搜索的文本。

研究人员给这些模型布置了任务，比如，在有15%单词被掩盖的段落中预测出缺失的单词；检索文本来回答问题。

研究人员表示，他们拥有2048个专家系统的1.6万亿参数模型（Switch-C）“完全没有不稳定性”，其速度相比于T5-XXL模型提升了4倍。

此外，研究者还将模型与T5-Base和 T5-Large进行了对比，结果表明，在相同的计算资源下，新模型预训练速度有最高7倍的提升。

研究人员表示，大型稀疏模型可用于创建较小的密集模型，在任务上进行微调，其质量增益为大型模型的30%。

从整体结果上看，Switch Transformer 模型在多项推理和知识任务中带来了显著性能提升。这说明该模型架构不只对预训练有用，还可以通过微调将质量改进迁移至下游任务中。

研究人员表示，

我们无法完全保留模型质量，但通过将我们的稀疏模型提炼成密集模型，可以实现10到100倍的压缩率，同时实现约30%的专家模型的质量增益。

在未来的工作中，研究人员计划将Switch Transformer应用于不同模态或多模态模型，包括图像和文本。

参考链接：论文地址：https://arxiv.org/abs/2101.03961https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

花粉社群VIP加油站

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

OpenAI的DALL-E 2模型或连接到GPT-3，进一步提升对世界关系的深层理解

2023-04-23 18:09

怎么在自己做的软件系统中加入GPT-3

2023-04-23 18:04

相关推荐

不一样的聊天体验——用chatgpt让你的聊天更有趣

用自己的手机也能查看别人的聊天记录，操作简单，一学就会

“你聊天，我聊天，明年补考教室见……”

和ChatGPT一起了解骨科手术机器人

人工智能聊天机器人：ChatGPT和Bard，谁更厉害？

关于作者

华为乐分享..(万蜂敬仰)

文章

461

主题

0

关注

0

粉丝

0

点击领取今天的签到奖励!

54个圈友 0个话题

华为手机随手拍，记录生活点滴之美好

51个圈友 0个话题

这里是华为P30pro手机交流圈，欢迎华为P30pro用户进群交流

60个圈友 2个话题

华为花粉体验官，体验官专属的交流群

登录后查看您创建的圈子

现在登陆

登录后查看您创建的圈子

现在登陆

猜你喜欢

标签云

@杭州百翼科技有限公司

杭州互联网违法和不良信息举报平台网络110报警服务

浙ICP备17046585号

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索