最新研究揭示DeepSeek R1等大语言模型在推理测试中频繁“放弃”，引发争议

时间：2025-02-20 02:10

小编：小世评选

近期，针对最新大语言模型的推理能力进行的一项研究引发了广泛讨论。研究发现，DeepSeek R1等一些高端语言模型在面对简单推理测试时出现了“放弃”的现象，表现出极大的不确定性与困惑。这一发现不仅挑战了我们对语言模型推理能力的认知，也引起了学界与网络社区的激烈争议。

研究团队根据美国国家公共广播电台（NPR）的周日谜题挑战（The Sunday Puzzle）构建了一个新基准测试，包含了近600个谜题。这些谜题即使不需要专业知识也能理解，但实际解决难度却较大。例如，一个谜题要求想出一个五个字母、两个音节的单词，并将中间字母改为字母表中该字母前面的字母，最终得到一个五个字母、三个音节的单词。在经历五天的思考后，甚至连熟悉英语的成年人都很难找到答案。

该研究的目的是通过这些谜题来评估当前几款流行语言模型的推理能力，包括OpenAI的o1、o3-mini、DeepSeek R1和Google的Gemini Flash Thinking等。研究团队表示，这些推理模型在解决这类谜题时面临巨大的挑战，且在现有基准测试中并不明显。

值得注意的是，在测试过程中，DeepSeek R1经常选择直接放弃，不仅给出错误答案，甚至在多个问题上表现出“无限思考”的状态，即在达到上下文的输出限制前都无法完成推理。有研究结果显示，在595个测试问题中，DeepSeek R1在142个问题上明确“放弃”。而在888次测试应用中，它的有效推理能力只有35%左右，远低于其他模型。

NPR周日谜题挑战是美国知名的广播智力游戏节目，自1987年以来每周播出一次，听众会被给出一个简短谜题。尽管谜题内容多样且灵活，但一般只需要普通的英语知识和美国文化常识即可理解。不过，由于谜题往往难度不一，即使是有时间思考的听众也可能难以找到正确答案。

为了判断模型的表现，研究团队从13年的周日谜题挑战记录中构建数据集，并挑选出难度适中的问题进行测试，确保每个问题的答案清晰明确。为了避免歧义，研究人员还补充了必要的上下文信息。在测试过程中，研究人员采用了零-shot prompting的方式，直接向模型提供问题，无需额外的格式说明或指导。

研究团队发现，在博士级科学问题的基准评测中，虽然DeepSeek R1及OpenAI模型的表现相对较好，但在与其他简单谜题进行测试时，其推理能力显著不足。特别是在面对那些需要逻辑推理的谜题时，这些模型往往显示出不必要的犹豫和不确定性，有时甚至宁愿放弃，而不是尝试给出一个合理的答案。

此项研究的结果引发了网络社区的热烈讨论。其中一些参与者对推理测试的标准提出了质疑，认为这些问题的设计过于依赖对于流行文化和知名名称的了解，而这并不代表真正意义上的推理能力。一位网友指出，如果问题设计成多项选择，消除了记忆基础的挑战，模型的表现会更佳。研究团队的发现也让很多人思考，是否对模型的训练数据进行过严格的审查，以确认这些谜题和答案是否被包含在其中。

还有一些网友表示，DeepSeek R1等模型在推理过程中往往能接近正确答案，却偏偏无法意识到，这引发了人们对于模型的分词器及其处理能力的关注。适当的优化与改良，特别是在推理策略的引导上，可能会让这些模型更为可靠。

DeepSeek R1在这项新基准测试中的表现引发了诸多反思。这项研究不仅揭示出当前语言模型在面对具体推理问题时的弱点，同时也为未来的研究方向提供了新的视角。我们期待看到模型在参与这类测评时，能获得更加均衡和合理的性能表现，以便更好地适应真实世界中的推理任务。

最新研究揭示DeepSeek R1等大语言模型在推理测试中频繁“放弃”，引发争议

精品推荐

相关文章