机器之心报道
编辑:魔王
为了衡量机器学习模型的数学求解能力,来自 UC 伯克利和芝加哥大学的研究者提出了一个包含 12, 500 道数学竞赛难题的新型数据集 MATH,以及帮助模型学习数学基础知识的预训练数据集 AMPS。研究发现,即使是大参数的 Transformer 模型准确率也很低。
许多学术研究探讨数学问题求解,但对于计算机而言这超出了其能力范畴。那么机器学习模型是否具备数学问题求解能力呢?
来自加州大学伯克利分校和芝加哥大学的研究者为此创建了一个新型数据集 MATH。该数据集包含 12, 500 道数学竞赛难题,每个数学题都有完整的逐步求解过程,可用来教机器学习模型生成答案和解释。为了促进未来研究,提升模型在 MATH 数据集上的准确率,研究者还创建了另一个大型辅助预训练数据集,它可以教模型数学基础知识。
尽管通过这些方法提升了模型在 MATH 数据集上的准确率,但实验结果表明,准确率仍然很低,即使 Transformer 模型也不例外。研究者还发现,仅靠增加预算和模型参数量并不能实现强大的数学推理能力。扩展 Transformer 能够自动解决大多数文本任务,但目前仍无法解决 MATH 问题。
该研究第一作者 Dan Hendrycks 发推表示:
国际数学奥林匹克竞赛(IMO)三金得主能达到 90% 的准确率,而 GPT-3 的准确率只能达到约 5%。
如果这一趋势持续下去,那么机器学习模型距离获得数学推理能力还很遥远。
图 3:问题、GPT-2 (1.5B) 模型生成的逐步解、真值解。
花粉社群VIP加油站
猜你喜欢