**摘要:**人工智能语言模型GPT-3在解决某些逻辑问题方面的表现与大学生相当,这些问题类似于标准化测试中出现的问题。研究人员写道,这一结果引发了一个问题:这项技术是否在模仿人类推理,还是在使用一种新型的认知过程。要解决这个问题,需要访问支撑GPT-3和其他AI软件的软件。
全文报道:
人们可以通过将新问题与熟悉的问题进行比较,并将解决方案扩展到新问题来轻松解决新问题。这一过程被称为类推推理,长期以来被认为是人类独有的能力。
但现在,人们可能需要为新来者让路。
洛杉矶加利福尼亚大学(UCLA)的心理学家的研究表明,令人惊讶的是,人工智能语言模型GPT-3在解决通常出现在智力测试和标准化测试(如SAT)上的推理问题方面的表现与大学本科生相当。该研究发表在《自然人类行为》杂志上。
但论文的作者写道,该研究提出了一个问题:GPT-3是在模仿人类推理作为其庞大语言训练数据集的副产品,还是在使用一种根本新的认知过程?
由于无法访问GPT-3的内部工作机制(由OpenAI公司保护),UCLA的科学家无法确定其推理能力是如何工作的。他们还写道,尽管GPT-3在某些推理任务方面的表现远远超出了他们的预期,但这一流行的AI工具在其他方面仍然失败得惨不忍睹。
UCLA的博士后研究员泰勒·韦布(Taylor Webb)表示:“无论我们的结果多么令人印象深刻,都必须强调,这个系统存在重大局限性。它可以进行类推推理,但不能解决人们很容易解决的问题,例如使用工具解决物理任务。当我们给它提出这些问题时——其中一些问题孩子们可以迅速解决——它提出的解决方案是荒谬的。”
韦布和他的同事测试了GPT-3解决一组灵感来自Raven's Progressive Matrices测试的问题的能力,该测试要求受试者预测一组复杂形状排列中的下一个图像。为了使GPT-3能够“看到”形状,韦布将图像转换为GPT-3可以处理的文本格式;这种方法还确保了AI以前从未遇到过这些问题。
研究人员要求40名UCLA本科生解决相同的问题。
UCLA心理学教授洪京露(Hongjing Lu)表示:“令人惊讶的是,GPT-3不仅表现得和人类一样好,而且还犯了类似的错误。”
GPT-3正确解决了80%的问题——远高于人类受试者的平均得分(略低于60%),但在最高人类得分的范围内。
研究人员还要求GPT-3解决一组SAT类比问题,他们认为这些问题从未在互联网上发布过——这意味着这些问题不太可能成为GPT-3的训练数据的一部分。这些问题要求用户选择共享相同类型关系的单词对。(例如,在问题“'Love'与'hate'之间的关系与'rich'与哪个词之间的关系相同?”中,解决方案将是“poor”。)
他们将GPT-3的分数与大学申请人的SAT分数的已发布结果进行了比较,并发现AI的表现优于人类的平均分数。
研究人员随后要求GPT-3和学生志愿者解决基于短篇小说的类推问题——要求他们阅读一篇文章,然后确定传达相同含义的不同故事。这项技术在这些问题上的表现不如学生,尽管OpenAI的最新迭代技术GPT-4的表现优于GPT-3。
UCLA的研究人员已经开发了自己的计算机模型,该模型受到人类认知的启发,并一直在将其能力与商业AI进行比较。
UCLA心理学教授基思·霍利奥克(Keith Holyoak)表示:“AI正在变得更好,但我们的心理AI模型在去年12月之前仍然是解决类比问题的最佳选择,当泰勒得到了GPT-3的最新升级时,它变得一样好甚至更好。”
研究人员表示,到目前为止,GPT-3一直无法解决需要理解物理空间的问题。例如,如果提供了一组工具的描述——例如纸板管、剪刀和胶带——可以用来将泡泡糖从一个碗转移到另一个碗,GPT-3提出了奇怪的解决方案。
露表示:“语言学习模型只是试图进行词预测,所以我们很惊讶它们可以进行推理。在过去的两年中,这项技术已经取得了很大的进展。”
UCLA的科学家希望探索语言学习模型是否真的开始像人类一样“思考”,还是在做一些完全不同的事情,只是模仿人类思维。
霍利奥克说:“GPT-3可能有点像人类一样思考。但另一方面,人们并没有通过摄取整个互联网来学习,所以训练方法完全不同。我们想知道它是否真的像人们那样做,或者它是不是全新的东西——一种真正的人工智能——这本身就是令人惊讶的。”
为了找出答案,他们需要确定AI模型正在使用的基础认知过程,这需要访问软件和用于训练软件的数据——然后进行他们确定软件尚未接受过的测试。他们说,这将是决定AI应该成为什么的下一步。
韦布说:“对于AI和认知研究人员来说,拥有GPT模型的后端将非常有用。我们只是输入并获得输出,这并不像我们希望的那样决定性。”
来源:
https://www.sciencedaily.com/releases/2023/07/230731110750.htm
花粉社群VIP加油站
猜你喜欢