马斯克发布Grok3：算力超DeepSeek V3263倍然而表现却饱受质疑

时间：2025-02-19 21:00

小编：小世评选

北京时间2月18日，特斯拉首席执行官马斯克与他的xAI团队在中正式发布了Grok的最新版本——Grok3。这一版本声称在算力上超越竞争对手DeepSeek V3达263倍，引发了全球媒体和科技界的广泛关注。马斯克通过社交媒体和活动不遗余力地宣传这一全新AI模型，期待它在数学、编程以及科学计算等多个领域带来突破性进展。

新发布的Grok3在多个基准测试中声称表现超越了市场上的主要AI模型，包括NLP标杆GPT-4，以及DeepSeek R1。马斯克甚至大胆预测，Grok3将用于未来的SpaceX火星任务，可能在三年内实现诺贝尔奖级别的突破。然而对于这样的言论，外界的实际反馈却显得几分冷淡。许多用户在实验中发现，Grok3并未如宣传所言，在简单基础问题上表现出色。

笔者在发布后对Grok3进行了一次简单的实测，询问了一个传统的逻辑问题：“9.11与9.9，哪个大？”出人意料的是，Grok3并未能准确解读这个问题并给出合理的答案。这一问题的“翻车”并非个例，许多用户也对Grok3进行了一系列的基础测试，例如“比萨斜塔上的两个球哪个先落下”，均发现Grok3同样无法给出正确的回答。这不仅引发了用户的困惑，也让人质疑其在日常应用中的可靠性，甚至有人戏称它为“天才不愿意回答简单问题”。

马斯克在中演示Grok3分析他所称经常玩的游戏《流放之路2》的职业与升华效果时，也频频遭遇错误答案，尽管马斯克处于状态之中，似乎并没有意识到Grok3给出的信息与实际情况严重不符。这样的失误不仅成为了用户调侃的笑柄，更给Grok3的实用性打上了问号。

在随后的讨论中，许多用户发现Grok3的表现与其实力之间存在明显差距。发布会上的官方数据声称Grok3在AI竞技场的表现“遥遥领先”，但深入分析后发现，这一展示手法存在“作图技巧”。例如，纵轴范围仅设定在1400到1300分的区间，使得Grok3与其它模型的得分差别显得异常显著。实际上，Grok3的得分比DeepSeek R1和GPT-4高出不过1-2%，与用户的实际体验相去甚远。

在面对庞大的算力投入时，包括20万张H100显卡和超过两亿小时的计算时间，这些巨大的资源投入在提升模型能力上的边际效用已经显露出疲态。虽说在模型训练中更强的算力通常意味着更优秀的表现，但这种“堆砌算力”的方式在Grok3的案例中显然遇到了瓶颈。

随着Grok3的推出，许多业内人士意识到AI模型的未来并不仅仅依靠提升参数规模或算力，而更需关注训练数据的质量与结构。一些研究者指出，类似OpenAI在推出GPT-4时所面临的问题——数据资源的紧缺，正在成为整个行业的共性问题。实际上，Grok3与阶段性数据质量不足所引发的“天花板”现象已经在它的性能反馈中显露。

马斯克对此表示，当前发布的版本只是测试版，未来将会有更完善的版本面世，这对Grok3的“完美形象”投下了阴影。尽管如此，他仍试图通过社交媒体鼓励用户给出反馈，似乎将自己转变为了一名产品经理。这种角色转换不禁引发了人们对其AI模型未来发展的猜测。

Grok3的出现并不意味着大模型时代的终结。OpenAI、DeepSeek等企业仍在努力通过扩增参数规模和提升算力来追求更优秀的模型。随着参数体积的飞涨，训练成本同样在飙升，如何在数据和算力之间找到平衡与突破，将是未来AI发展的关键。

在Grok3闹出的一系列乱子中，我们不得不思考：大规模预训练的AI模型是否已然走到了拐点？正如OpenAI前首席科学家Ilya Sutskever所言，当前预训练模型所依赖的大量数据已经接近枯竭，未来的AI系统需要具备更类似人脑的自主思维与学习能力。

若Grok3能够在其失败中反映出当下AI模型发展的局限性，它将为整个行业提供更重要的启示，指引后续的研究者探索出一条通向更智能、新型AI算法的道路。毕竟，过往依赖大量数据进行训练的日子，终将成为过去，而新的时代需要的是更具创新性的方法。

马斯克发布Grok3：算力超DeepSeek V3263倍然而表现却饱受质疑

精品推荐

相关文章

马斯克发布Grok3：算力超DeepSeek V3263倍 然而表现却饱受质疑

精品推荐

相关文章

马斯克发布Grok3：算力超DeepSeek V3263倍然而表现却饱受质疑