人工智能语言模型难以 "理解 "数学

如果说计算机擅长什么，那就是擅长数学。因此，在经过一番挣扎之后，顶尖的机器学习研究人员最近在教授计算机数学方面取得了突破性进展，这可能会让人感到惊讶。

在过去的一年里，来自加州大学伯克利分校、OpenAI和谷歌的研究人员在教授语言模型（类似于GPT-3和DALL-E 2的算法）基本数学概念方面取得了质的飞跃。然而，直到最近，语言模型经常无法解决即使是简单的单词问题，例如“爱丽丝比鲍勃多了五个球，鲍勃在给查理四个球后有两个球。爱丽丝有多少个球？”

“当我们说计算机非常擅长数学时，它们实际上只是非常擅长具体的事情，”谷歌机器学习专家Guy Gur-Ari说。计算机擅长算术 – 插入数字和计算是孩子的游戏。但在正式结构之外，计算机也在挣扎。

谷歌的机器学习专家Ethan Dyer表示:“我认为有这样一种观念，即人类在做数学时有一些严格的推理系统–知道什么和不知道什么之间有明显的区别。”

解决单词问题或“定量推理”看似棘手，因为它需要许多其他问题所没有的稳健性和严谨性。如果过程中的任何步骤出错，答案将是错误的。在数学方面，错误更加明显。OpenAI的机器学习专家Vineet Kosaraju表示:“当把非常大的数相乘时，它们会忘记进位，然后差1。”语言模型所犯的其他错误就不那么人性化了，比如将10误解为1和0，而不是10。”

OpenAI的机器学习专家卡尔•科布(Karl Cobbe)表示:“我们研究数学，是因为我们发现它独立起来非常有趣。但正如Ethan Dyer所说，如果它擅长数学，那么它可能也擅长解决许多其他有用的问题。”

由于机器学习模型是在更大的数据样本上进行训练的，因此它们往往会变得更加健壮，并且犯的错误更少。但是，通过定量推理，扩大规模似乎只能到此为止。研究人员意识到，语言模型所犯的错误似乎需要一种更有针对性的方法。

去年，加州大学伯克利分校和OpenAI的两个不同的研究小组分别发布了两个数据集MATH和GSM8K，其中包含数千个数学问题，涉及几何，代数，微积分等。“我们想看看这是否是数据集的问题，”人工智能安全中心从事数学研究的研究员Steven Basart说，众所周知，语言模型在单词问题上很差，但它们有多糟糕，可以通过引入格式更好，更大的数据集来
修复它们吗？MATH小组发现，对于顶级语言模型来说，定量推理是多么具有挑战性，这些模型的得分不到7%。（一个人类研究生的得分为40%，而一个数学奥林匹克竞赛冠军得分为90%。

针对GSM8K问题的模型达到了大约20%的准确率，而这些模型更容易解决小学阶段的问题。OpenAI研究人员使用了两种主要技术：微调和验证。在微调中，研究人员采用预先训练的语言模型，其中包含不相关的信息（维基百科上关于赞博尼斯的文章，字典条目的“gusto”等），然后只向模型显示相关信息(数学问题)。另一方面，核查更像是一次审查会议。“该模型可以看到很多自己的错误示例，这真的很有价值，”Cobbe说。

当时，OpenAI预测，模型需要使用100倍以上的数据进行训练，才能在GSM8K上达到80%的准确率。但在六月份，谷歌的Minerva宣布准确率为78%，而向上扩展的幅度很小。“它领先于我们预期的任何趋势，”Cobbe说。Basart对此表示赞同：“这太令人震惊了。我认为这需要更长的时间。”

Minerva使用谷歌自己的语言模型，即Pathways语言模型（PaLM），该模型根据arXiv在线预印本服务器的科学论文和其他具有格式化数学的来源进行了微调。另外两个策略帮助了Minerva。在“思想链提示”中，Minerva被要求将更大的问题分解成更容易接受的块状。该模型还使用了多数人投票–不是被要求提供一个答案，而是被要求解决该问题100次。在这些答案中，Minerva选择最常见的答案。

这些新战略的收益是巨大的。Minerva在数学上的准确率高达50%，在GSM8K上准确率接近80%，以及MMLU，这是一组更通用的STEM问题，包括化学和生物学。当Minerva被要求重做一个随机样本的稍微调整的问题时，它的表现也一样好，这表明它的能力不仅仅是来自记忆。

Minerva对数学的了解或不了解是比较模糊的。与带有内置结构的证明助手不同，Minerva和其他语言模型没有正式结构。它们可以有奇怪的、混乱的推理，但仍能得出正确的答案。随着数字越来越大，语言模型的准确性也会减弱，这在TI-84上是不会发生的。

“它到底有多聪明？”Cobbe问道。虽然像Minerva这样的模型可能会得出与人类相同的答案，但它们所遵循的实际过程可能会大不相同。另一方面，思想链提示对于任何被要求“展示你的作品”的人类学生来说都是熟悉的。

谷歌的机器学习专家Ethan Dyer说：“我认为有这样一种观念，即做数学的人类有一些严格的推理系统，在知道和不知道之间有明显的区别。但人类也会给出不一致的答案，出现错误，并且不能应用核心概念。在机器学习的这个前沿领域，边界是模糊的。”