奥赛冠军都做不对的题，却被拿来考ML模型？GPT-3：我不行-花粉乐享

> 乐学堂 > > 奥赛冠军都做不对的题，却被拿来考ML模型？GPT-3：我不行

奥赛冠军都做不对的题，却被拿来考ML模型？GPT-3：我不行

来源：机器之心Pro

2023-05-16 18:16:32

205

管理

机器之心报道

编辑：魔王

为了衡量机器学习模型的数学求解能力，来自 UC 伯克利和芝加哥大学的研究者提出了一个包含 12, 500 道数学竞赛难题的新型数据集 MATH，以及帮助模型学习数学基础知识的预训练数据集 AMPS。研究发现，即使是大参数的 Transformer 模型准确率也很低。

许多学术研究探讨数学问题求解，但对于计算机而言这超出了其能力范畴。那么机器学习模型是否具备数学问题求解能力呢？

来自加州大学伯克利分校和芝加哥大学的研究者为此创建了一个新型数据集 MATH。该数据集包含 12, 500 道数学竞赛难题，每个数学题都有完整的逐步求解过程，可用来教机器学习模型生成答案和解释。为了促进未来研究，提升模型在 MATH 数据集上的准确率，研究者还创建了另一个大型辅助预训练数据集，它可以教模型数学基础知识。

尽管通过这些方法提升了模型在 MATH 数据集上的准确率，但实验结果表明，准确率仍然很低，即使 Transformer 模型也不例外。研究者还发现，仅靠增加预算和模型参数量并不能实现强大的数学推理能力。扩展 Transformer 能够自动解决大多数文本任务，但目前仍无法解决 MATH 问题。

该研究第一作者 Dan Hendrycks 发推表示：

国际数学奥林匹克竞赛（IMO）三金得主能达到 90% 的准确率，而 GPT-3 的准确率只能达到约 5%。

如果这一趋势持续下去，那么机器学习模型距离获得数学推理能力还很遥远。

图 3：问题、GPT-2 (1.5B) 模型生成的逐步解、真值解。

花粉社群VIP加油站

2

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

硅谷早知道 S4E33 | 人工智能又一里程碑式突破，GPT-3红了

2023-05-16 21:35

GPT-3开始收费！OpenAI官宣：我们只是完成伟大使命的必要成本

2023-05-16 18:14