编辑:LRS
【新智元导读】语言模型理解了人类语言吗?谁赞成,谁反对?机器会不会思考这个问题就像问潜水艇会不会游泳一样。——Dijkstra
早在ChatGPT发布之前,业界就已经嗅到了大模型带来的变革。
去年10月14日,圣塔菲研究所(Santa Fe Institute)的教授Melanie Mitchell和David C. Krakauer在arXiv发布了一篇综述,全面调研了所有关于「大规模预训练语言模型是否可以理解语言」的相关争论,文中描述了「正方」和「反方」的论点,以及根据这些论点衍生的更广泛的智力科学的关键问题。
这不是一场单纯的学术辩论,机器理解世界的程度和方式对于人类能在多大程度上信任AI能够执行驾驶汽车、诊断疾病、照顾老人、教育儿童等任务,以便在人类有关的任务中采取有力且透明的行动。
目前的辩论表明,学术界在如何思考智能系统中的理解方面存在着一些分歧,特别是在依靠「统计相关性」和「因果机制」的心智模型(mental models)中,分歧更加明显。
不过,人工智能研究界对机器理解仍然达成了普遍共识,即,虽然人工智能系统在许多特定任务中表现出看似智能的行为,但它们并不像人类那样理解它们所处理的数据。
比如说,面部识别软件并不能理解面部是身体的一部分,也不理解面部表情在社会互动中的作用,更不能理解人类是如何以近乎无穷种方式来使用面部概念的。
同样,语音转文字和机器翻译程序也并不理解它们所处理的语言,自动驾驶系统也不理解司机和行人用来避免事故的微妙眼神接触或肢体语言的含义。
事实上,这些人工智能系统经常被提及的脆性(brittleness),即不可预测的错误和缺乏稳健的泛化能力,是评估AI理解力的关键指标。
神经科学家Terrence Sejnowski这样描述LLMs的涌现能力(emergence):
突破了某个阈值后,就好像外星人一下子出现了,可以用一种可怕的、人类交流的方式与我们交流。目前只有一件事是清楚的,大型语言模型并非人类,它们行为的某些方面似乎是智能的,但如果不是人类的智能,它们的智能的本质是什么?
支持理解派VS反对理解派尽管大型语言模型展现出的性能让人震撼,但最先进的LLMs仍然容易受到脆性和非人类错误的影响。
不过可以观察到,网络性能随着其参数数量和训练语料规模的扩大而有明显改善,这也使得该领域的一些研究者声称,只要有足够大的网络和训练数据集,语言模型(多模态版本)也许是多模式版本--将导致人类水平的智能和理解。
另一位学者认为,在谈论这些系统时,智能、智能体以及推而广之的理解是错误的,语言模型实际上是人类知识的压缩库,更类似于图书馆或百科全书,而不是智能体。
例如,人类知道「痒」让我们发笑是什么意思,因为我们有身体;语言模型可以使用「痒」这个词,但它显然没有过这种感觉,理解「痒」是将一个词映射到一种感觉上,而不是映射到另一个词。
那些站「LLMs没有理解能力」一派的人认为,虽然大型语言模型的流畅性令人惊讶,但我们的惊讶反映了我们对统计相关性在这些模型的规模上能生成什么缺乏直觉。
2022年对自然语言处理社区的活跃研究人员进行的一项调查报告显示了这场辩论中的明显分歧。
当询问480名受访者是否同意关于LLMs是否能在原理上理解语言的说法,即「只对文本进行训练的生成式语言模型,只要有足够的数据和计算资源,就能在某种意义上理解自然语言」
调查结果五五开,一半(51%)同意,另一半(49%)不同意。
机器的理解不同于人类虽然参与「LLM理解能力」辩论的双方都有充分的直觉来支持各自的观点,但目前可用来深入了解理解力的且基于认知科学的方法并不足以回答关于LLM的这类问题。
事实上,一些研究人员已经将心理测试(最初是为了评估人类的理解和推理机制)应用于LLMs,发现在某些情况下,LLMs确实在思想理论测试中表现出类似人类的反应,以及在推理评估中表现出类似人类的能力和偏见。
虽然这些测试被认为是评估人类泛化能力的可靠智能体,但对于人工智能系统来说可能不是这样。
大型语言模型有一种特别的能力来学习其训练数据和输入中的token之间的相关性,并且可以使用这种相关性来解决问题;相反,人类使用反映其现实世界经验的压缩概念。
当把为人类设计的测试应用于LLMs时,对结果的解释可能依赖于对人类认知的假设,而这些假设对这些模型来说可能根本不真实。
为了取得进展,科学家们将需要开发新的基准和探测方法,以了解不同类型的智能和理解的机制,包括我们所创造的新形式的「奇异的、类似心灵的实体」,目前也已经有了一些相关工作。
随着模型规模越来越大,能力更强的系统被开发出来后,关于LLMs中的理解能力的争论强调了我们需要「扩展我们的智能科学」,以便使得「理解」是有意义的,无论是对人还是机器都是如此。
神经科学家Terrence Sejnowski指出,专家们对LLMs智能的不同意见表明,我们基于自然智能的旧观念是不够的。
如果LLMs和相关模型通过利用前所未有的规模的统计相关性就能获得成功,也许可以被认为是一种「新的理解形式」, 一种能够实现非凡的、超人的预测能力的形式,例如DeepMind的AlphaZero和AlphaFold系统,它们分别给下棋和蛋白质结构预测领域带来了一种「外来」的直觉形式。
因此可以说,近年来,人工智能领域创造了具有新的理解模式的机器,很可能是一个全新的概念,随着我们在追求智能的难以捉摸的本质方面取得进展,这些新概念将继续得到丰富。
那些需要大量编码的知识、对性能要求很高的问题将会继续促进大规模统计模型的开发,而那些拥有有限知识和强大因果机制的问题将有利于理解人类智能。
未来的挑战是开发新的科学方法,以揭示不同形式的智能的详细理解机制,辨别它们的优势和局限,并学习如何整合这些真正不同的认知模式。
参考资料:
https://www.pnas.org/doi/10.1073/pnas.2215907120
花粉社群VIP加油站
猜你喜欢