斯坦福研究:大模型数学推理能力遭遇“变量换名”考验,准确率骤降
时间:2025-01-05 16:00
小编:小世评选
最近,斯坦福大学的一项研究引发了广泛关注,研究结果指出大模型在数学推理能力上存在显著短板,尤其体现在面对变量名称变化时的表现。在这一最新提出的测试集上,简单地更换数学题目的变量名称或数值范围,模型的准确率竟然直线下降,令人惊讶。
研究表明,诸如o1-preview等表现相对突出的模型,准确率从50%骤降至33.96%。同样,其他先进的模型如GPT-4o、Claude、Deepseek等也面临同样的困境,几乎无一幸免。这样的现象使得学术界和科技界对大模型是否真正掌握了解题逻辑产生了质疑。许多人认为,这些模型可能只是依赖于已经存储的题目进行检索,而非在真正实施数学推理。
这一发现推动了人们对模型推理能力稳健性的重新思考。稳健性不仅是评估模型水平的重要指标,更是判定其是否能够在各种变体题中保持合理表现的关键。一位网友调侃道:“o1的o难道是overfitting的o吗?”其言外之意,模型在训练过程中是否过于依赖于已知的训练数据,而非真正理解解决逻辑。另有专家指出,随着模型深度的增加,搜索空间会指数级增长,推理的难度也随之加大,因此产生的挑战也愈发复杂。
斯坦福研究团队在此背景下,推出了全新的数学测试基准,目的在于更加全面地评估大模型在复杂数学问题上的解决能力。与以往的评估基准(如MMLU、MMMU、GSM8K和MATH等)相比,他们的新基准不仅覆盖更广泛的题型,也减轻了模型在训练过程中可能产生的评估偏差。新基准的数据集的构建涉及了1985年至2023年的236个问题,经过精心筛选,涵盖了11个不同数学领域的问题,以确保生成的答案能够被模型识别和理解。
为了防止模型利用训练过程中接触到的题目出现判断失误,研究团队引入了功能变异构建变异数据集。变异分为仅更改变量名和修改数值属性两类,能够生成无限多的同难度新问题,而这些问题在互联网上并没有现成的答案。这种严谨的实验设计让模型们在面对变体题时,显然感到无比困惑。
在实验中,参与测试的模型包括了OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。令人意外的是,大部分模型在原始数据集上的表现都极其低迷。比如,曾获得AI数学奥林匹克竞赛冠军的模型在此测试中的准确率仅为4.66%。在变异数据集的评估中,模型们的准确率显著下降,o1-preview从原始数据集的50%降至33.96%,Claude的准确率也从26.40%降至18.86%。
深入分析OpenAI的o1-preview和GPT-4o的解答后,研究团队发现,模型在推理过程中存在明显的逻辑缺陷。例如,o1-preview在解题时未能提供充分的证明,声称某变量的最大值为n,但并未解释为什么存在这样的限制。而GPT-4o则在推理过程中出现明显的逻辑跳跃,直接得出某几何形状的合理性,却没有提供支持这一的逻辑基础,进一步暴露了其推理能力的薄弱。
尽管斯坦福大学的研究成果为大模型在数学能力提升方面提供了新的视角,要真正解决模型在数学推理上面临的挑战,仍需开展深入的研究与探索。当前提出的基准为数学推理能力评估提供了有力支持,也在相当程度上缓解了现有基准面临的饱和问题。而随着未来的研究进展和变体数据生成技术的优化,我们能够期待大模型在数学推理能力上有更为长足的进展。
如欲获取更多信息,相关论文和代码的链接也便于研究者进行深入探讨和验证。论文可在[此处查看](https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf),而代码则可在[此处获取](https://anonymous.4open.science/r/putnam-axiom-B57C/README.md)。