当要求GPT-4进行自我检讨时其准确性提高了30%-花粉乐享

> 乐学堂 > > 当要求GPT-4进行自我检讨时其准确性提高了30%

当要求GPT-4进行自我检讨时其准确性提高了30%

来源：cnBeta

2023-04-24 16:30:09

272

管理

研究人员已经让GPT-4对自己的工作进行了检讨，进而使其性能提高了30%。研究人员Noah Shinn和Ashwin Gopinath写道："人类不是每天都在开发新技术，利用曾经被认为是人类智能所特有的决策过程来达到最先进的标准。但是，这正是我们所做的。"

"反思"技术采用了GPT-4已经令人印象深刻的执行各种测试的能力，并引入了"一个框架，允许人工智能代理模仿人类一样的自我反思并评估其性能"。有效地，它引入了额外的步骤，让GPT-4设计测试来批判自己的答案，寻找错误和误区，然后根据发现的问题重写其解决方案。

在HumanEval编码测试中，GPT-4的准确率从67%提高到88%，这是一个令人印象深刻的飞跃，使用的是自我反省循环。

该团队在一些不同的性能测试中使用其技术。在HumanEval测试中，由模型从未见过的164个Python编程问题组成，GPT-4的得分创下了67%的记录，但使用Reflexion技术，其得分跃升至非常令人印象深刻的88%。

在Alfworld测试中，该测试挑战人工智能通过在各种互动环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力，Reflexion技术将GPT-4的表现从73%左右提升到接近完美的97%，在134项任务中只有4项失败。

在另一项名为HotPotQA的测试中，语言模型被赋予了对维基百科的访问权，然后在可能的13000个问题/答案对中给出100个，可以"挑战代理人对内容的解析和对几个支持文件的推理"。在这项测试中，GPT-4的准确率只有34%，但带有Reflexion的GPT-4设法做得更好，达到54%。

越来越多的时候，解决人工智能问题的方法似乎是更多的人工智能本身。在某些方面，这感觉有点像生成式对抗网络，其中两个人工智能互相磨练技能，例如，一个试图生成无法与"真实"图像区分的图像，而另一个试图区分假的和真的。但在这种情况下，GPT既是作者又是编辑，努力改善自己的输出。

这篇论文可以在Arxiv上找到。

花粉社群VIP加油站

2

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

出门问问李志飞：GPT-3比AlphaGo更接地气，更通用

2023-04-24 16:33

最新大语言模型综述：T5到GPT-4最全盘点，20余位研究者联合撰写

2023-04-24 16:25