大语言模型真的理解数学吗?并不

当前最先进的AI无法真正理解和解决数学问题。
我们正身处AI的热潮之中。
关于AI的当前能力,周围充满了炒作。
有人认为AI将使像软件工程和医学这样需要高度专业技能的工作变得过时。
也有人警告说,AI末日可能在接下来的几年内到来。
但这些说法都与事实相去甚远。
确实,AI有朝一日可能会接管我们的工作,但当前的AI架构还无法做到这一点,而且已经达到了其性能极限。
基于Transformer架构的大型语言模型(LLMs)是非常出色的单词预测器和语言生成器,但有大量证据表明,它们不能可靠地解决数学问题。
它们可以可靠地模仿这一过程,但本质上缺乏真正的逻辑推理能力。
接下来,我们将讨论当前AI在数学任务中的表现、其原因,以及揭穿那些大型科技公司向我们推销的谎言。
当Linda问题换成Bob问题时,大型语言模型面临挑战
你听说过经典的Linda问题吗?
这是认知心理学中展示结合谬误的一个例子。
简单来说,这种谬误发生在人们错误地判断两个事件同时发生的概率比其中一个事件单独发生的概率更大,而这不是数学上正确的。
问题是这样的:
复制
Linda is 31 years old, single, outspoken, and very bright.
She majored in philosophy.
As a student, she was deeply concerned with issues of discrimination and social justice, and also participated in anti-nuclear demonstrations.
哪个更有可能?
A. Linda is a bank teller.
B. Linda is a bank teller and is active in the feminist movement
答案是什么?
声明A必须比声明B更有可能,因为数学上,联合概率 P(A and B)
总是小于或等于任何单一事件 P(A)
或 P(B)
的概率。
GPT-4在回答这个问题时的表现👇
GPT-4的逻辑推理能力在很大程度上是不稳定的,并且基于其初始的tokens(图片来自一篇ArXiv研究论文,标题为“对Token偏见的窥探:大型语言模型尚未成为真正的推理者”)
在单次试验中,GPT-4正确地识别了结合谬误,并正确回答了问题。
但是将Linda的名字改为Bob会使其困惑,其逻辑推理能力就会受到影响。
(我在GPT-4o上进行了同样的测试,是的,它回答错误了。)
这篇ArXiv论文的研究人员生成了几个其他调整过的问题,并统计分析LLMs在这些问题上的表现。
研究人员通过创建用于推理任务的合成数据集,并在这些问题中更改名称/上下文同时保留底层逻辑,来测试LLMs中的token偏见。然后,他们使用McNemar’s test评估模型在原始任务和扰动任务上的性能。(来源)
他们一致地(具有统计学意义)发现,LLMs存在巨大的Token偏见。
这意味着LLMs在解决问题时主要依赖于输入文本中的特定模式或词汇,而不是真正理解它们。
另一个例子
“二十五匹马的比赛问题”是这样的:
有25匹马。
这些马只能一次五匹比赛,你不能测量它们实际的速度;
你只能测量它们在比赛中的相对排名。
挑战是找出找到前三匹马所需的最少比赛次数。
将这个问题改为**“三十六只兔子的比赛问题”**再次使GPT-4和Claude 3 Opus困惑,并且它们错误地解决了这个问题。
GPT-4和Claude 3 Opus都错误地解决了修改后的问题(改变了数量/动物,但底层逻辑保持不变)
苹果借助GSM-Symbolic取得突破
GSM8K (Grade School Math 8K)基准测试通常用于评估大型语言模型(LLMs)的数学推理能力。
这个数据集包含了8.5千个高质量、语言多样的小学数学文字问题。
对于人类来说,这里的问题相对简单,只需要知道四个基本算术运算(+ − × ÷
)就能得出最终答案。
这些问题需要多步骤推理,但一个聪明的中学生应该仍然能够解决这个数据集中的每一个问题。
来看一个例子:
{
'question': 'Natalia在四月份卖给了48个朋友别针,然后她在五月份卖出的别针数量是四月份的一半。Natalia在四月份和五月份总共卖出了多少别针?',
'answer': 'Natalia在五月份卖出了48/2 = <<48/2=24>>24个别针。
\nNatalia在四月份和五月份总共卖出了48+24 = <<48+24=72>>72个别针。
\n#### 72',
}
所有最先进的LLMs(包括Claude, GPT-4o, o1和Gemini)在GSM8K上的表现非常出色,但苹果公司的研究人员对这些指标提出了质疑。
为了测试他们的假设,他们使用模板调整了这个基准测试,并基于这些模板生成了问题的变体。
他们对GSM8K的修改包括改变名称/数值以及添加或删除原始问题中的从句。
他们称他们的新基准为—GSM Symbolic。
用于创建GSM8K问题不同变体的模板(图片来自ArXiv研究论文“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”)
他们使用这个修改后的基准对LLMs进行评估,揭示了一些显著的发现。
大多数LLMs在GSM-Symbolic上的平均性能低于GSM8K(如下图中虚线所示)。
此外,使用GSM-Symbolic模板生成的问题中,LLM响应的准确性存在显著差异。
与GSM8K相比,不同LLMs在GSM-Symbolic上的8次尝试链式思维(CoT)准确性的分布(来源)
对于像Mistral-7b-it和Gemma-2b-it这样的模型,与GPT-4o相比,在GSM-Symbolic上的性能下降是显著的。
与GSM8K相比,在GSM-Symbolic上的准确性下降(来源)
还有另一个有趣的发现,即LLMs在解决数学问题时是基于其训练数据进行模式识别的。
如下图中所示,当原始问题中的名称、数字或两者都被更改时,LLMs的性能显著下降。
如果LLMs真正理解数学,这种情况不应该发生。
不同LLMs对名称、数字或两者更改的准确性敏感性(来源)
研究人员通过从GSM-Symbolic生成三个不同难度级别的数据集,进一步进行了评估。
这些数据集如下:
- GSM-Symbolic-Minus-1 (GSM-M1): 通过从原始问题中删除一个从句
- GSM-Symbolic-Plus-1 (GSM-P1): 通过向原始问题中添加一个从句
- GSM-Symbolic-Plus-2 (GSM-P2): 通过向原始问题中添加两个从句
通过添加或删除问题中的从句来改变GSM-Symbolic的难度(来源)
随着问题中从句数量的增加,所有LLMs的准确性降低,方差增加。
令人意外的是,这同样适用于OpenAI的o-1 mini,这是一个专门为更好推理而训练的模型。
增加从句对不同LLMs准确性的影响(来源)
研究人员并没有止步于此。他们使用一个进一步修改的数据集,称为GSM-NoOp,进一步推动这些LLMs
GSM-NoOp是通过向问题中添加看似相关的陈述创建的,这些陈述实际上与推理和结论无关。
GSM-NoOp的一个例子(“No-Op”意味着添加的从句没有操作意义)(来源)
大多数模型无法忽略这些陈述,盲目地将它们转换为额外的操作,从而犯下愚蠢的错误。
OpenAI最先进的推理模型o1-preview在GSM-NoOp上性能下降了17.5%,而Phi-3-mini在GSM-NoOp上的性能下降了65%!
不同LLMs在GSM-NoOp上的准确性下降
所有模型的完整结果如下所示。
所有LLMs在GSM8K(完整测试集和测试集中的100个问题的子集)和不同GSM-Symbolic变体上的完整8次尝试准确性
但是OpenAI是否安全?
OpenAI最先进的推理模型,o1-mini和o1-preview,在问题难度增加时,保持了准确性的稳定。
然而,两者在GSM-NoOp上都经历了显著的准确性下降。
这从o1-preview对下面这个简单数学问题的回答中可以看出,这个问题添加了一个无关的从句。
(然而,值得一提的是,当我在测试时,OpenAI当前最先进的推理模型o1完美地解决了这个问题。)
大型语言模型如何真正解决数学问题?
苹果的研究显示了当前最先进的大型语言模型(LLMs)推理能力的不稳定性。
2023年的另一项有趣研究表明,当推理任务由计算图表示时,正确的预测与LLMs训练数据中的完整计算子图比错误的预测更频繁地相关联。
这是否意味着LLMs只是简单地记忆它们的训练数据集?
现实情况更为复杂。
最近的研究表明,LLMs使用“启发式集合”或简单的规则/模式来解决数学问题,而不是依赖于离散的算法或仅仅记忆训练数据。
让我们来探讨一下。
在基于Transformer的LLMs中,执行给定任务计算的多层感知器(MLP)层或注意力头(Attention heads)的子集被称为电路。
当研究Llama3–8B时,在其中间到后期的层中发现了许多基于算术的电路。
还发现,大多数MLP参与算术运算,而不是注意力头。
只有少数注意力头(大多数在早期层)执行计算,而大多数头在序列位置之间传递操作数和运算符的信息。
注意力头和MLP对算术计算的影响(Arxiv研究论文标题为“没有算法的算术:语言模型用启发式集合解决数学问题”)
早期的MLP层处理操作数和运算符的嵌入,而中间到后期的层则专注于产生结果。
大约需要每层1.5%的神经元来正确计算每层的算术提示。
这些神经元学习稀疏的、人类可识别的规则或启发式方法,这些方法的组合使模型能够产生准确的输出。
一些启发式方法如下:
- 范围启发式:当操作数或结果在特定数值范围内时使用。
- 模数启发式:当操作数或结果具有特定属性时使用,例如,是偶数或能被5整除。
- 模式识别启发式:用于检测操作数或结果中的模式,例如,两个操作数都是奇数或一个远大于另一个。
- 相同操作数启发式:当两个操作数相等时使用。
- 直接结果启发式:在结果直接从训练数据中记忆的情况下使用,例如,知道
226 – 68 = 158
而无需进一步计算。 - 间接启发式:与直接结果启发式不同,这种启发式用于在单个操作数具有特定特征,有助于轻松得出结果的情况下,例如,操作数在
[100, 200]
范围内。
这些启发式方法在训练早期出现,并随着时间的推移而演变,在后期检查点变得更加精细。

我们离数学天才AI还有多远?
像MATH和GSM8K这样的流行基准在评估大型语言模型(LLMs)的数学能力方面存在缺陷。
首先,这些基准评估的是LLMs在高中和早期大学水平的数学能力。
其次,它们在许多研究论文和项目中的广泛使用导致了数据污染。
因此,研究人员创建了一个新的基准,称为FrontierMath,以测试LLMs的高级数学问题解决能力。
FrontierMath包含了数百个来自不同领域的极具挑战性的数学问题,这些问题是由专家数学家精心设计的。
FrontierMath中的数学问题结合了不同的数学领域(节点大小表示每个领域在问题中出现的频率,而相互连接则显示了这些领域如何在单个问题中结合)(ArXiv研究论文标题为‘FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI’)
这些问题如此困难,以至于解决一个典型问题需要相关数学分支的研究者数小时的辛勤工作。
对于更难的问题,甚至需要数天!
来看看其中一些问题。
没有一个模型能够在整个基准测试中达到2%的成功率。
领先LLMs在FrontierMath上的表现,基于单次评估(来源)
对于至少有一个模型能够解决的问题(总共4个问题),并且在每个模型每个问题上进行五次重复试验,只有‘o1-preview’能够在所有五次试验中都正确回答一个问题。
在四个问题(至少有一个模型能够解决)上的成功率,进行五次测试运行(来源)
与其他基准相比,这些基准几乎达到了饱和点,给我们一个LLMs在数学问题上非常擅长的错误印象。
与GSM8K的约4%和MMLU的2%相比,FrontierMath的未解决率超过98%(来源)
一个LLM真的需要征服FrontierMath基准才能吹嘘其数学能力,而它们离这还远着呢。
我们的领先LLMs无法理解和解决数学问题,而传播这种观点的人是在散布恐慌。
是的,我们可能有一天会实现,但目前,通用人工智能(AGI)还是一个遥远的梦想。