图注:Pathways架构
这本质上与人脑的运作方式类似,人脑中有百亿个神经元,但在执行特定任务中只激活特定功能的神经元,否则巨大的能耗是人难以承受的。大、通用,且高效,这种大模型路线无疑具有很强的吸引力。「以后有了稀疏动态的加持,计算代价就不会那么大,但是模型参数一定会越来越大,稀疏动态结构或许会为大模型打开一个新天地,再往十万亿、百万亿走也没问题。」张家兴相信,稀疏动态结构将是解决大模型尺寸与算力代价之间矛盾的最终途径。但他也补充说,在当下这种模型结构还未普及的情况下,再盲目将模型继续做大确实意义不大。目前国内在这个方向上的尝试还比较少,且不如谷歌做得更彻底。大模型结构上的探索创新与开源相互促进,我们需要更多开源来激发大模型技术的变革。阻碍大模型开源的,除了大模型的算力成本导致的低可用性,还有安全问题。对于大模型尤其是生成大模型开源后带来的滥用风险,国外担忧的声音似乎更多,争议也不少,这成了许多机构选择不开源大模型的凭据,但或许也是他们拒绝慷慨的一个借口。OpenAI已经因此招致了许多批评。他们在2019年发布GPT-2时就声称,模型的文本生成能力过于强大,可能会带来伦理方面的危害,因而不适合开源。一年后公开GPT-3时也仅仅提供了API试用,目前GPT-3的开源版本实际上是由开源社区自行复现的。
事实上,对大模型的访问限制反而会不利于大模型提高稳健性、减少偏见和毒性。Meta AI的负责人Joelle Pineau在谈到开源OPT的决定时,曾诚恳地表示,单靠自家团队解决不了全部问题,比如文本生成过程中可能产生的伦理偏见和恶意词句。他们认为,如果做足功课,就可以在负责任的情况下让大模型变得可以公开访问。
在防范滥用风险的同时保持开放获取和足够的透明度,这并非易事。作为打开了「潘多拉魔盒」的人,Stability AI享受了主动开源带来的好名声,但最近也遭遇了开源带来的反噬,在版权归属等方面引起了争议。开源背后的「自由与安全」这一古老的辩证命题由来已久,或许并没有一个绝对正确的答案,但是在大模型开始走向落地的当下,一个清楚的事实是:大模型开源,我们做得还远远不够。两年多过去,我们已经拥有了自己的万亿级别大模型,在接下来大模型从「读万卷书」到「行万里路」的转变过程中,开源是一个必然的选择。最近,GPT-4正呼之欲出,所有人都对它能力上的飞跃抱着极大的期待,但我们不知道,未来它能给多少人释放多大的生产力?(公众号:雷峰网)
参考资料:
1.https://arxiv.org/pdf/2211.09110.pdf
2.北京智源人工智能研究院《中国超大规模智能模型产业发展报告》
公众号:雷峰网
花粉社群VIP加油站
猜你喜欢