(GPT-3来后的队列)
人工智能超大模型GPT-3和绿巨人浩克一样,都是大块头。
经常观摩,可以治疗颈椎病。
绿巨人GPT-3模型出生于美国Open AI实验室。
在看到自己的论文刷爆了朋友圈后,像他们这么低调的科研团队,一点也没有得意,只是在办公室旋转、跳跃,并巡回炫耀了24小时,而已。
《亲爱的数据》出品
早在2019年,Open AI实验室就发出前方高能预警。
他们核算了自2012年以来模型所用的计算量,从AlexNet模型到AlphaGo Zero模型。AlexNet模型,是冠军模型。AlphaGo Zero模型,是打败韩国围棋九段棋手李世石的那个,它们都是人工智能模型。
参数指标很争气,增长30万倍。
那些堪称“最大”的AI训练模型所使用的计算量,呈指数型增长。
3.4个月就会倍增。这是Open AI实验室的结论。
《亲爱的数据》出品
虽然还没有成为“定律”,但已经有很多人用“摩尔定律”和其比较。
摩尔定律说,芯片性能翻倍的周期是18个月。Open AI说,人工智能训练模型所需要的计算量的翻倍周期是3.4个月。
三个半月,一台计算机就不够了,得两台。掐指一算,618大促买新的机器,双11大促又得买新的了。
对于人工智能的科研工作来说,金钱是个好仆人。
如果你不知道Open AI,那要补补课了。世界历史上,美国时隔9年第一次使用国产火箭从本土将宇航员送入太空,民营航天企业第一次进行载人发射,马斯克就是这家震惊世界的公司的创始人。
Open AI是全球人工智能顶级实验室,这家机构也曾有马斯克的支持。
《亲爱的数据》出品
微软、百度、谷歌,仿佛走进了罗马角斗场,双眼充满红血丝。拜托,哪有这么血腥,看看科技巨头的年度利润。人工智能本来就是贵族的游戏,哪个玩家没有几头健壮的现金牛。
《亲爱的数据》出品
2018年之后,人工智能模型的消费水平,进入了奢侈品俱乐部。驴牌教父起身站立,鼓掌欢迎。
要是俱乐部有个微信群,奢侈品品牌掌门人,会依次“拍了拍微软、百度、谷歌”。
以下,是一份预估的账单,更恰当地说,是奢侈品消费的账单。
《亲爱的数据》出品
第二层,不是有钱就能行,技术也很重要。
在袁进辉看来,人工智能的大模型运行在大规模GPU(或者TPU)集群上,训练需要分布式深度学习框架,才能在可接受的时间内看到提升效果,大模型的训练如果没有分布式深度学习框架支持,即使能投入大笔资金搭建大规模GPU集群也无济于事。在模型和算力都如此快速增长的情况下,深度学习框架如果不跟着一起发展的话,会限制算法研究的水平和迭代速度。
对深度学习框架,人工智能模型的要求是,在努力上进的我身边,有一个同样努力上进的你。
深度学习框架呼唤技术创新,再墨守成规就会被“甩”了。
无情未必真豪杰,那究竟是什么技术如此重要?
一个能打败“内存墙”的技术。
那内存墙是什么呢?这个问题的答案,有(hen)点(ke)长(pu)。
《亲爱的数据》出品
模型太大,就需要把模型拆开。比如说神经网络前几层拆在这个GPU上,后几层拆在另一个GPU上,或者神经网络中某一层被切割到多个GPU上去了。
[怎么切割是一道超纲题,暂(wo)且(ye)不(bu)答(hui)。]
把数据或模型拆分之后,就需要多个GPU频繁互动,互通有无。然而,漏屋偏逢连夜雨,设备互联带宽也不争气,没有实质改进,同机内部PCIe或多机互联使用的高速网的传输带宽,要低于GPU内部数据带宽一两个数量级。
可以用计算和数据传输之间的比例来衡量“内存墙“的压力有多大。计算机系统理论上恰好有一个叫运算强度(Arithmetic intensity)的概念可以刻画,说洋气一点,flops perbyte,表示一个字节的数据上发生的运算量。
只要这个运算量足够大,传输一个字节可以消耗足够多的计算量,那么即使设备间传输带宽低于设备内部带宽,也有可能使得设备处于满负荷状态。
进一步,如果采用比GPU更快的芯片,处理一小块儿数据的时间就比100毫秒更低,比如10毫秒,带宽不变,“调配”算法能用10毫秒的时间为下一次计算做好准备吗?事实上,即使是使用不那么快(相对于TPU 等专用芯片)的GPU,当前主流的深度学习框架对模型并行已经力不从心了。
CPU和GPU,仰天长啸:
“内存墙,How old are you(怎么老是你)?”
《亲爱的数据》出品
他认为,这是深度学习框架最应该解决的问题。人生在世,钱能解决绝大多数问题;但是,不能解决的少数问题,才是根本性的问题。训练超大人工智能模型,有钱就能买硬件,但要有技术,才能把硬件用好。
道理,很简单。
现实,很残酷。
“国内深度学习框架发展水平并不落后,有多家公司开源了水准很高的,这些够用了吗?”
袁博士答道:“现有开源框架直接拿过来,真是做不了大模型这事儿,尤其参数量上到GPT-3模型这个级别的时候。
深度学习模型进入到现在这个阶段,大规模带来的问题,仅靠开源的深度学习框架已经有点吃力了。已有开源分布式深度学习框架无论使用多大规模的GPU集群,都需要漫长的时间(几个月以上)才能训练完成,时间和人力成本极高。
弱者坐失时机,强者制造时机。
“那在开源版本上修改,能否满足工业级的用途?”
袁博士回答道:“现在市面上的深度学习框架,有选择的余地,但当前在某些场景(比如,模型并行)改造和定制也力不从心。就比如绿巨人GPT-3这件事儿,直接把现有开源深度学习框架拿来是搞不定的,OpenAI实验室对开源框架做了深度定制和优化,才可能在可接受的时间内把这个实验完整跑下来。”
一般人,只看到了模型开销的昂贵,没有看到技术上的难度。
“单个芯片或单个服务器无法满足训练大模型的需求,这就是所谓的Silicon Scaling的局限性。为解决这个难题,我们必须使用横向扩展的方法,通过高速互联手段把多个服务器连在一起形成计算资源池,使用深度学习框架等分布式软件来协同离散耦合的多个加速器一起高效工作,从而提高计算力的上限。”
袁博士继续解释。
袁博士还特别介绍了解决这个问题对人才的要求,他说:“改造深度学习框架,是一件困难的事。从团队方面来说,算法工程师难招聘,有计算机系统理论背景或者工程能力到位,又懂算法的工程师更难找。挖人也不解决问题。一位算法工程师挖走了,算法的巧思之处被带走了。但是,深度学习框架得把差不多整个团队挖走,才够用。”
“超大模型不是今天才有,也不是今天才被人注意到,而是一直以来就有这个趋势。有远见的人,较早就能看到趋势。最先发现个趋势和最先准备的人,最有机会。”
“很多深度学习框架刚开始研发的时候都没有瞄准这种问题,或者说没有看到这个问题。深度学习框架没有完成的作业,就要留给算法团队去做,考验算法公司技术团队对深度学习框架的改进能力。市面上的情况是,极少数企业搞得定,大多数企业搞不定。”
聊了很久,我抛出最后一个问题。
“GPT-3模型在企业业务里用不到,很多人觉得无用,实验室的玩意而已。其科学意义是什么呢?”
他笑了笑,用一贯低沉的声音说道:“GPT-3模型说明,OpenAI实验室很有科学洞见,不是人人都能想到往那个方向去探索,他们的背后有一种科学理念支持。思考大模型的时候,有一种假设(hypothesis)的方法论,当假设成立,能够解决与之相对应的科学问题。在这个方法论的指导下,勇于探索,肯定不是莫名其妙的一拍脑袋就花千万级别的美金往超大模型的方向上鲁莽的冒险。”
袁进辉把人工智能和人脑做了一个比较。
他说道:
“人类的大脑与我们现在的人工智能自然语言处理模型进行比较:人类大脑有100万亿个突触,这比最大的人工智能模型还要大三个数量级。这个人工智能模型,名叫GPT-3,几乎通过图灵测试了。一直以来,科研团队都在寻找‘能正常工作’的聊天机器人,这个模型让人看到了突破口。”
他在思考,当真正实现了具有百万亿参数的神经网络时,今天人工智能和深度学习模型面临的困难会不会就迎刃而解了呢?机器人进行真正智能对话的日子是不是就快到来了?
说到这里,他眼神中闪过一丝亮光。
在袁进辉看来,这种里程碑式的突破,通常需要杰出团队才能取得。OpenAI想到了,也做到了。它代表了这方面全球的最高水平,探索了能力的边界,拓展了人类的想象力。就像飞船飞往宇宙的最远处,触摸到了人工智能模型参数量增长的边界。
这种模型的问世,就像航天界“发射火箭”一样,成本高,工程要求也高。他们的成功,既实现了理论上的意义,也实现了工程上的意义。
人工智能的希望,在来的路上。
无论实验怎么苦恼,
无论效果如何不济,
GPT-3模型始终是人类迈向“智能”的无尽长阶上的一级。
没有伟大的愿景,就没有伟大的洞见。
没有伟大的奋斗,就没有伟大的工程。
(完)
袁进辉博士
受访人介绍:
袁进辉,清华大学计算机系博士,一流科技公司(OneFlow)创始人,之江实验室天枢人工智能开源开放平台架构师。曾在微软亚洲研究院从事大规模机器学习平台研发工作,2014年其研发出当时世界上最快的主题模型训练算法和系统LightLDA,被应用于微软在线广告系统。一流科技成立于2017年初,致力于打造深度学习框架的事实工业标准。
《亲爱的数据》出品
出品人:谭婧
《亲爱的数据》出品
花粉社群VIP加油站
猜你喜欢