羿阁 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
你说,咱今天可以不加班不?
不,到点走不了,今天这班你必须得加。
如此冷冰冰的回答,来自一个可以免费调戏千亿参数大模型的网站:
网站背后的技术依托要想搞清网站背后的原理,首先,让我们先了解一下它为什么会选择OPT-175B做原型。
OPT-175B,是Meta AI开源的预训练语言模型,共有1750亿个参数,今年5月开源的时候,简直引发了AI研究社区的大轰动。
△用14个NLP任务对GPT和OPT进行测试,平均精度相差不大不仅从完整模型到训练代码、部署代码完全开放,OPT-175B运行时的碳消耗更是连GPT-3所需的1/7都不到,属实是非常环保省能了。
可以说,OPT-175B的开源增加了大模型开发的开放性。
而这个神奇网站背后的技术Alpa,则堪称是OPT-175B的“加强免费版”。
Alpa,是一个专门用于训练和服务大规模神经网络的系统。
此前,无论是OpenAI的GPT-3,还是Meta AI的OPT-175B,都已经实现了将神经网络扩展到数千亿参数。
但是呢,神经网络规模越大,训练和服务他们的分布式系统技术就更复杂。
现有的模型并行训练系统,要么要求用户手动创建一个并行化计划,要么要求用户从有限的模型并行化配置空间中自动生成一个。
相对来说有点复里复杂的,而且还做不到在分布式计算设备上扩展复杂的DL模型。
Alpa的优势在于,仅通过几行代码,就能实现大规模分布式训练和服务的自动并行化。
并且,该团队还在国际机器学习大会ICML 2022上,做了关于整个大模型技术栈的tutorial。
目前该项目已在GitHub上开源,链接可在文末自取。
研究团队Alpa的研究团队主要来自加州大学伯克利分校。
共同一作有三位,分别是郑怜悯,李卓翰,张昊。
郑怜悯,加州大学伯克利分校EECS(电子工程和计算机科学)系博士,研究兴趣包括大规模ML系统、编译器、并行计算和程序合成。
郑怜悯本科毕业于上海交通大学ACM荣誉班,取得计算机科学学士学位。曾经在Amazon Web Services、OctoML和华盛顿大学担任过研究实习生。
李卓翰,加州大学伯克利分校计算机科学博士生,本科毕业于北京大学。
他的研究方向主要在ML和分布式系统的交叉点,致力于提高当前ML模型的准确性、效率、可解释性等性能。
张昊,加州大学伯克利分校RISE实验室博士后。
张昊最近致力于大规模分布式DL,构建端到端的可组合和自动化系统;还研究大规模分布式ML,涉及性能和可用性。
如果你感兴趣的话,可以戳下面的链接,自己上手体验一下~
网站demo:https://opt.alpa.ai
参考资料:[1]https://arxiv.org/pdf/2201.12023.pdf[2]https://arxiv.org/pdf/2205.01068.pdf[3]https://github.com/alpa-projects/alpa
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
花粉社群VIP加油站
猜你喜欢