萧箫 发自 凹非寺量子位 | 公众号 QbitAI
真·开源GPT模型,终于来了。
参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。
最关键的是,可商用。
没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。
尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:
数据对比不是特别直观,团队还将结果进行了可视化。
可以看出,在最终性能相差不大的情况下,Cerebras-GPT的训练效率要更高一些。
曾开发最大AI芯片其实,Cerebras的“本职”是一家AI芯片公司。
Cerebras公司由Sean Lie和Andrew Feldman等人于2016年创立。
其中,Andrew Feldman曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。
与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片):
他们当年做出来过一个名叫“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了4项世界纪录:
晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。片上缓存最大:包含18GB的片上SRAM存储器。运算核心最多:包含40万个处理核心。后来这个超大WSE又升级了二代,然后团队基于WSE-2打造出了一个名叫Cerebras CS-2的AI超算。
这次的Cerebras-GPT系列模型,就是在这个Cerebras CS-2的AI超算中训练出来的。对此这家公司表示:
虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。
Cerebras还表示,虽然很多硬件公司都声称训练效果能接近英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。
这波啊,这波Cerebras格局大了(手动狗头)
模型地址:https://huggingface.co/cerebras/Cerebras-GPT-13B
参考链接:https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
花粉社群VIP加油站
猜你喜欢