马斯克新发布的Grok-3遭遇重大失误引发AI智能质疑

时间：2025-02-20 21:30

小编：小世评选

来源：元宇宙新声

作者：贾桂鹏

在近期的活动中，马斯克与其xAI团队共同推出了最新版本的AI大模型——Grok-3。自他首次披露这款产品以来，便将其誉为“地球上最聪明的AI”，并在推特（现已更名为X）上强调他在周末期间不断优化这一模型的举措。刚一发布，这款被寄予厚望的Grok-3便面临了重大的质疑。

最新的Beta版Grok-3在测试中被问及一个简单却经典的难题：“9.11与9.9哪个大？”在未提供任何其他背景信息的情况下，这款AI模型竟然无法给出正确的答案。这一失误引发了媒体和公众的广泛关注，马斯克所宣称的“地球上最聪明的AI”似乎没有展现出应有的智慧。Grok-3究竟出了什么问题？

这个问题虽看似简单，却暴露了大模型在数字处理方面的局限。多次尝试后发现，Grok-3在解析“9.11”时，可能将其拆分为“9”和“11”两个独立的数字，进而引发了逻辑上的错误。因为在这种情况下，大模型可能误判出小数点后的“11”显得比“9”更大，导致得出了错误的。若将其视为日期或章节编号时，“9月11日”和“第9章第11节”显然要比“9月9日”和“第9章第9节”大。

深入分析Grok-3的大模型架构，尤其是其底层的注意力机制，会发现该模型对小数点后数字的偏重。或者更深层次的问题存在于位置编码或推理逻辑的设计上，这些因素都可能导致错误判断的产生。因此，Grok-3在这方面的表现并非个例，像ChatGPT等其他大模型也曾在类似问题上出现过失误。

更为引人关注的是，在同一场景下向DeepSeek询问该问题时，尽管未启用深度思考（R1）模式，DeepSeek仍能准确回答“9.9大于9.11”。这表明，在一些AI模型的设计上，仍然存有显著的差距。

在发布会的环节中，除了在数字问题上的失误，Grok-3在分析游戏《流放之路 2》的职业与升华效果时也给出了不少错误结果，明显反映出模型仍未完全成熟。尽管Grok-3在官方数据中似乎表现出色，且在Chatbot Arena中的评分高于其他竞争模型，但实际上其与DeepSeek R1和GPT-4的差距仅为1%到2%，并非如马斯克所描述般遥遥领先。

对此，马斯克对此并不以为然，他在发布会上回应称，Grok-3目前仍处于测试阶段，错误越多对于模型的修正和反馈越有利，未来几个月将推出完整版，并邀请用户积极反馈使用体验。这一策略虽然表面上看似合理，但也使人质疑马斯克在推崇AI的同时是否对模型的验证和产品的实际应用进行充分考虑。

值得注意的是，马斯克在中还提及，未来一周内,Grok应用将推出“语音模式”，这将为Grok模型增添合成语音的能力。他表示xAI计划在几个月后开源上一代模型Grok-2。他的一贯做法是，在新版本全面发布后，再将旧版本开源，以此来推动技术的进步与创新。

尽管马斯克常常警告人工智能可能给人类社会带来的风险，他依然在努力推动加大对这一领域的投资和研发。此次Grok-3的推出，进一步展现了他对大算力AI的信心。无论是在训练规模还是用电量上，Grok-3都表现出相对优越的能力，并在多个基准测试中取得了SOTA的成绩。但其实际有效性与用户体验是否能匹配，还需时间的检验。

Grok-3的发布与其后的失误显然引发了许多关于AI智能的疑虑和探讨。尽管技术进步的道路上常常伴随着挑战与错误，但这些问题能否有效被认知与修正，对未来的人工智能发展至关重要。随着技术的不断演进，我们期待Grok系列能在此后的版本迭代中带来更多的创新以及更高的智能水平。