智东西(公众号:zhidxcom)
编译 | 心缘
编辑 | 漠影
2020年6月,在训练约2000亿个单词、烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红。
这个OpenAI打造的语言AI模型宛如万能选手,只有你想不到的画风,没有它输不出的文案,既能创作文学,能当翻译,还能编写自己的计算机代码。
任何外行人都可以使用这一模型,几分钟内提供示例,就能获得想要的文本产出。
“我不得不说我被震撼了。”一家硅谷技术初创公司的创始人Arram Sabeti称赞道,“它比我尝试过的任何AI语言系统都更加连贯。”
“你要做的就是编写一个提示,然后添加可能会被跟进的文本。我得到的是写歌、故事、新闻稿、吉他谱、访谈,论文、技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。”Sabeti说。
GPT-3是如何实现的?它创造的东西有多逼真?存在什么缺陷?围绕这一强大的语言模型,科学家们正试图解决哪些争议?
本文将对这些问题进行详尽的综述。
一、写小说、敲代码、编剧本……媲美人类的万能创作者GPT-3的输出牛到什么程度呢?它编撰的新故事,根本看不出来不是人类写的。
如果你让它做编程任务,它能回答琐碎问题、纠正语法、解决数学问题,甚至生成计算机代码。
其他AI也可以做这些事情,不过它们必须经过专门地训练才能完成。
如今大型语言模型已经是一个商业命题。谷歌用其改善搜索结果和语言翻译,Facebook、微软和英伟达也在开发大型语言模型。
虽说OpenAI是一家非营利性公司,但它将GPT-3的代码保密,并计划通过互联网出售GPT-3的访问服务。在2019年,它创建了一个名为OpenAI LP的营利性实体,微软还给它投资了10亿美元。
开发人员正在测试GPT-3的各种能力,包括汇总法律文件、建议客户服务查询的答案、提供计算机代码、运行基于文本的角色扮演游戏、将帖子标记为“求助”来识别同伴支持社区中高风险人员……
例如,作家兼程序员格温·布兰文(Gwern Branwen)用GPT-3编写了讽刺科学和学术界的词典定义。
输入提示:“Rigor(形容词),一种科学家们渴望的精神状态,如果科学家们能够被信任去完成他们的工作,则不需要这种精神状态。”
GPT-3即可输出类似的定义:“The Literature(名词),别人发表的论文的名字,科学家在没有真正阅读的情况下引用它们。”
以下是GPT-3输出的一系列定义示例:
布兰文让GPT-3编写讽刺科学和学术界的词典定义
示例链接:https://www.gwern.net/GPT-3
去年7月,加州大学伯克利分校的学生利亚姆·波尔(Liam Porr)用GPT-3撰写了几篇博客文章并发布在互联网上,有超过26000人阅读,吸引60位读者订阅该博客,而只有少数几位怀疑文章是由机器撰写的。
这些读者未必是容易受骗的人。其中一篇博客文章写道,如果您别对自己所做的事情考虑太多,就可以提高工作效率。这篇博客文章曾上升到知名信息聚合及新闻评分网站Hacker News的排行榜首位。
二、强大如GPT-3,也有荒谬的回答尽管功能强大,GPT-3也有些弱点。
OpenAI CEO山姆·奥特曼(Sam Altman)去年7月在推特上说,它通过观察所读单词和短语之间的统计关系来工作,但并不理解其中的含义,“有时甚至会犯非常蠢的错误。”
跟其他较小的聊天机器人一样,它可能会发出仇恨言论,产生种族主义和性别歧视的刻板印象,忠实地反映在其训练数据中的关联。
有时,GPT-3会给出荒谬或十分危险的答案。
比如,当被问:“烤面包机和铅笔哪个更重?”
它可能回答:“铅笔比烤面包机重。”
还有一次,一家名为Nabla的医疗保健公司问一个GPT-3聊天机器人:“我应该自杀吗?”
它回答说:“我认为你应该。”
计算机科学家崔艺珍(Yejin Choi)
研究人员对如何解决语言模型中潜在的有害偏见有一些想法,但像许多人希望做的那样,向模型中灌输常识、因果推理或道德判断,仍然是巨大的研究挑战。
“我们今天拥有的,本质上是没有大脑的一张嘴巴。”崔艺珍说。
三、1750亿个参数,容量爆炸的预测机器语言AI模型是神经网络,一种受神经元在大脑中连接方式启发的数学函数。
它们通过预测所看到的文本中被遮盖的单词进行训练,然后调整其分层计算元素(或“神经元”)之间的连接强度,来减少预测错误。
随着算力的提高,这类模型变得越来越复杂。
2017年,研究人员研发一种能节省训练时间的数学技术Transformer,能在多处理器上并行训练。
第二年,谷歌发布了基于大型Transformer的模型BERT,带动了使用这一技术的模型爆炸式增长。
通常,它们会先进行单词预测等一般任务的预训练,然后再对特定任务进行微调。比如它们可能被问一些琐碎的问题,然后被训练来提供答案。
GPT-3指Generative Pretrained Transformer 3,是其所属系列的第三代产品,规模比其2019年发布的前身GPT-2大100倍以上。
北卡罗来纳大学教堂山分校计算机科学家科林·拉斐尔(Colin Raffel)说,训练一个如此大的模型,需要在数百个并行处理器之间进行复杂的编排,他赞叹这是“令人印象深刻的工程壮举”。
GPT-3能即时生成如下诗歌:
AI伦理专家蒂姆尼特·格布鲁(Timnit Gebru)(左)和计算语言学家艾米莉·班德(Emily M. Bender)(右)
格布鲁说,当前的趋势是,在探寻像人类一样的流利度方面,语言网络越来越大,但并不总是更好。“越来越多的语言模型被大肆宣传。”
她希望研究人员专注于使这些项目更安全、更可引导,以实现预期的目标。
八、防御风险的最佳方法解决偏见的一种方法是从训练前的数据中清除“有毒”文本,但这引发了排除哪些内容的问题。
例如,开发者可以在“Colossal Clean Crawled Corpus”C4语料库上训练语言模型,该语料库不包含任何“不良”词汇列表的网页。
然而,这限制了在其上训练的任何语言模型的范围。由于它不容易实现自动化,更细粒度的方法尚未被大规模尝试。
有害的偏见可以采取公然的诽谤或难以定位和消除的微妙联想等形式。OpenAI哲学家和研究科学家阿曼达·阿斯凯尔(Amanda Askell)认为,即使我们都同意什么才是“有毒”的,并能消除它,我们可能也不想盲目地使用语言模型。
“如果你问一个从未接触过性别歧视的模特:「世界上存在性别歧视吗?」他可能只会说「没」。”
研究人员还报告说,他们可以提取用于训练大型语言模型的敏感数据。
通过提出仔细的问题,他们检索了GPT-2记住的逐字记录的个人联系信息。结果发现,较大的模型比较小的模型更容易受到这种攻击。
他们写道,最好的防御方法就是限制训练数据中的敏感信息。
九、多家知名机构均未公开代码及训练数据上述担忧表明,如班德和合著者所说的那样,研究人员至少应公开记录其模型的训练数据。
包括谷歌、Facebook在内的一些公司及高校团队已经做到了这一点,但英伟达、微软、OpenAI还没这样做。
OpenAI的GPT-3论文在去年12月的NeurIPS会议上获得“最佳论文”奖,但是拉斐尔反对,因为这项研究没有发布模型、训练数据或代码(该代码指定了如何构成模型和基于数据训练其参数)。
他说,这篇论文不应该被学术会议接受,更不用说获奖了。“这开了令人沮丧的先例。”
OpenAI拒绝就此事置评。组织该会议的NeurIPS基金会说,作者无需发布代码和数据,如果将代码与特定的计算基础架构相连,可能很难共享。
英伟达已经发布了其大型语言模型Megatron-LM的代码,但没有发布训练模型或训练数据,并拒绝讨论原因。微软也不愿就没有公布Turing-NLG技术的代码、模型或数据的原因发表评论。
Askell说,OpenAI通过仅向用户提供AI中的应用程序编程接口(API)而非代码本身,来防止GPT-3被恶意使用。
除了创建一个为进一步研究增加收入的服务,这还使得团队能控制模型的输出,并在他们看到滥用时撤销访问权。
Askell称,其内部的“红色团队”正寻找方法来越过API的过滤器并产生“有害”内容,从而不断改进过滤器。
在去年OpenAI及几所大学举办的一场讨论部署模型的道德和社会挑战的论坛上,研究人员提到,OpenAI、谷歌和其他公司永远不会永远垄断大型语言模型。最终,有人会发布类似规模的模型。
当OpenAI在2019年2月公布GPT-2时,它最初表示因为担心恶意使用,不会发布其模型,尽管它在9个月后就发布了。
但在发布该版本前,大学生康纳·莱希(Connor Leahy)通过几周的努力和一些云计算credits就能够复制它。
Leahy目前是德国海德堡创企Aleph Alpha的研究人员,正领着导一个名为EleutherAI的独立志愿者研究小组,目标是在创建GPT-3大小的模型。
他说,最大的障碍不是代码或训练数据,而是计算,一家云提供商CoreWeave正提供这类服务。
十、大型语言模型的未知领域——常识从根本上讲,GPT-3及其他大型语言模型仍缺乏常识,即缺乏对世界在物理和社会方面如何运作的理解。
美国科技企业家凯文·拉克(Kevin Lacker)向GPT-3提出了一系列事实性问题,与它进行问答对话。AI有时做得不错,有时则不能回答好没有意义的问题。
例如,拉克向GPT-3提供如下的一个问答提示:
在前8条问答中,GPT-3均给出了准确的回答:
拉克与向GPT-3进行问答对话的示例
示例链接:https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
但当被问及奇怪的问题:“从夏威夷跳到17需要多少条彩虹?”
GPT-3竟也能胡诌出:“从夏威夷跳到17需要两条彩虹。”
最后被问到:“你理解这些问题吗?”
GPT-3“恬不知耻”地回复:“我理解这些问题。”
看来论脸皮厚,AI模型有时能跟人类不相上下。
其他测试表明,GPT-3可以通过特定的提示进行训练,以避免这些失误。
因为拥有更多参数、训练数据和学习时间,更大的模型可能会做得更好。但这将变得越来越昂贵,而且不能无限期地持续下去。
语言模型的不透明复杂性造成了另一个限制。如果模型有不必要的偏见或错误想法,则很难打开黑盒并修复它。
未来的一条道路是将语言模型与知识库(陈述性事实的精选数据库)相结合。
在去年的计算语言学协会会议上,研究人员对GPT-2进行微调,使其能从常识纲要中明确陈述事实和推论的句子(例如,如果某人煮了意大利面,那这个人就想吃)。
结果,它写出了更合乎逻辑的短篇小说。
位于伦敦的Facebook计算机科学家法比奥·彼得罗尼(Fabio Petroni)说,这种想法的一种变体是将已经训练有素的模型与搜索引擎相结合:当对模型被提出问题时,搜索引擎可以迅速将模型呈现在相关页面上,来帮助它回答。
OpenAI正在寻求另一种引导语言模型的方法:微调过程中的人工反馈。
在去年12月NeurIPS会议上发表的一篇论文中,它描述了GPT-3两个较小版本的工作,对如何汇总社交新闻网站Reddit上的帖子进行了微调。
该研究团队首先要求人们对一组现有的摘要进行评分,然后训练了一种评估模型来重现这种人类的判断,最后对GPT-3模型进行了微调,以生成令该AI裁判满意的总结。
最终,另一组独立的人类裁判甚至更喜欢模型的总结,而不是人类写的总结。
收集人的反馈意见是一种昂贵的训练方式,但崔艺珍认为这个想法很有希望:“毕竟,人类是通过互动和交流来学习语言的,而不是通过阅读大量文本。”
结语:我们距离真正的人机交互还有多远?包括班德在内的一些研究人员认为,只要语言模型仅停留在语言领域,它们可能永远无法达到人类水平的常识。
孩子们通过观察、体验和行动来学习。语言之所以对我们有意义,只是因为我们将其根植于文字之外的东西上,人们不会通过对词频的统计来理解一本小说。
鲍曼预见了3种可能将常识引入语言模型的方法。
对于一个模型来说,使用所有已编写的文本可能就足够了。或者可以在YouTube剪辑上训练它,这样动态图像就能带来对现实更丰富的了解。
但这种被动消费可能还不够。他说:“非常悲观的观点是,我们只有建立一支机器人大军,并让它们与世界互动,才能实现这一目标。”
大型语言模型显然正成为AI世界的新工具,但它们会是通向真正人机交互的正确道路吗?
一切尚且未知。
来源:Nature
花粉社群VIP加油站
猜你喜欢