AI推理测试:仅Grok3与QwQ突破思维局限正确解题
时间:2025-03-07 20:40
小编:小世评选
最近,我们在一次测试中提出了一个耐人寻味的推理问题:一根长达5.5米的竹竿,能否顺利通过一个高4米、宽3米的门?这一简单却富有挑战性的问题引发了多个AI模型的回答和思考,结果却让人感到惊讶与不解。
我们来看一下新上线“深度思考”功能的豆包模型。它凭借其敏锐的推断能力,毫不犹豫地回答:“不能通过。”国产高性能推理模型DeepSeek-R1也不甘示弱,但经过52秒的思考仍然坚信自己得出的无法通过。显然,这个模型在推理过程中困于一个思维定势,未能灵活应对三维空间的变化。
再来看看腾讯的T1模型,虽然它在解题方面表现出色,但仍然局限于二维空间的思维,结果也是“不能”。而Kimi的K1.5模型表现同样乏善可陈,简单明了地给出了“不能”的答案。智谱的GLM-zero紧随其后,依然未能突破思维局限,重蹈覆辙。
这时,我们决定探讨国外的模型。作为推理领域的先锋,OpenAI的模型果然给出了“能够通过”的反应。仔细审视其推理理由后,发现其使用的逻辑竟是“竹竿长5.5米,超过门的对角线”,这是对问题本质的一种错误理解,简直让人为之捧心。
众人期待下一个模型的表现,其中包括了马斯克的Grok3。经过70秒的深思熟虑,Grok3终于给出了正确答案,打破了之前模型的僵局。相较于其他回答,Grok3在推理时展现了让人钦佩的逻辑思维能力,成功领悟了三维空间的复杂性。
这一系列测试让人们逐渐对国内模型的表现愈发失望。跃问的Step-R-mini快速确认“不能”,百小应的深度思考也没有有所突破,而讯飞星火的x1推理模型更是花了足足99秒,最终的答案依旧是“不能通过”。天工Skywork 01的表现也是毫无新意,呜咽于同样的答案。
就在众人快要绝望之际,Qwen的QwQ推理模型出现了。QwQ不仅直接给出了正确的答案:“二维空间,无法通过;三维空间,可以通过。”它的思维表现让人耳目一新。从一开始,QwQ就能够锁定问题的三维性质,并进行详尽的假设、计算和推演,从而得出确切的回答。值得一提的是,本次测试使用的是千问国际版,而不是国内的通义,这是否意味着国际版在推理能力上优于本土模型?
这一轮测试中,国内外的12款推理模型中,仅有Grok3与QwQ成功突破了思维的限制,其余模型则纷纷掉入了思维的陷阱。部分模型在思考中挣扎,却最终迷失于复杂的思路之中;有些模型虽接近答案,但却因固化的思维方式而错失机会;而有些则完全不理会问题的三维特性,以极为简化的方式给出错误的。
反思不仅是针对这些模型,这也为AI推理领域未来的发展提供了重要的启示与借鉴。我们需要鼓励和推动更多的思维多样性与灵活性,不仅限于问题表象的解答,更应该深入探讨其内在逻辑与空间特性。虽然目前的模型在解决某些问题方面展现出良好性能,但显然还有很长的路要走,以适应更复杂的思考挑战。
正如这次测试所展示的,正确的答案往往并不只是依赖于模型的运算能力,更在于它们如何理解和应对问题的多维性。未来随着技术的不断进步,我们期待看到更多AI模型能够超越当前的思维局限,真正实现深度推理与理解,解决更复杂的现实问题。同时,这也呼吁我们在AI发展过程中保持批判性思维,明确AI与人类思考方式的差异,注重发掘更多创造性解决方案。