中美大模型竞争：Grok3凭借强大算力登顶，DeepSeek追求开源与性价比

时间：2025-02-22 17:00

小编：小世评选

2023年2月18日，埃隆·马斯克创立的公司正式发布了名为Grok3的大模型，该模型被誉为“地球上最聪明的”，并在各项评测中勇夺第一，超越了其竞争对手o3-mini，标志着其技术实力的强大。这一日，另一边的DeepSeek团队的梁文锋和Kimi的杨植麟也在专业网站上发布了论文，主要探讨如何减少长文本计算量与加快训练效率，再次映射出中美两国在大模型研发之路上的基本差异。

Grok3的成功得益于其采用了高达20万张英伟达H100芯片进行训练，展现出了强有力的算力支持。这种“火力覆盖”的发展模式不仅体现了美国企业在资源调配上的强大能力，也再次验证了“尺度定律”（Scaling Law）的有效性。即模型参数越大，其效果就越佳。而在高成本、高性能的闭源模型背后，DeepSeek却在不断追求“效能与性价比”的极致，低成本的研发模式让其在市场上具有了一种特别的“鲶鱼”效应。

尽管Grok3团队曾承诺未来会开源，但目前Grok3依然是闭源的。相对之下，DeepSeek一直保持着开源的路线，致力于将其技术成果免费共享给全球开发者。2月21日，DeepSeek宣布将于一周内开源五个代码库，以透明的方式展现其技术进展。

在Grok3发布会期间，马斯克的团队展示了新建的数据中心，强调“强大的智能来自大型算力集群”。为了快速推出Grok3，x公司耗时122天新建了一个数据中心，切实推动了十万块H100芯片的启用，而后又增加了GPU的容量。为了这款模型，x公司在算力上的投入可谓是巨额。

在经过严格的评测中，Grok3在“Chatbot Arena”榜单中得分超过1400，创造了新的纪录。根据相关数据显示，Grok3的计算量比其前身Grok2高出10到15倍。这一切不仅仅取得了技术上的突破，还在性能与成本上挑战了行业的传统认知。

而与Grok3的高算力、高成本模式相对应的是DeepSeek的低成本高效能发展路径。深度学习界的创新机制也在DeepSeek的论文中得到了体现，其中提出的原生稀疏注意力（NSA）机制，旨在通过并行处理来减少计算量，显著地提高推理速度和训练效率。通过将输入序列以“压缩”、“选择”、“滑动”的方式分成多个块，这种处理方式与GPU的计算能力完美契合，极大地降低了计算需求。

Kimi团队同样不甘落后，其发表的块状混合注意力（MoBA）机制通过动态选择文本块的相关性进一步提高了计算效率。两者无不强调能够无缝地集成到现有的语言模型中，进一步赋能现有的模型大幅提升效率。

DeepSeek所倡导的技术创新，也得到了国际网友的认可。他们认为，DeepSeek不仅在追求技术革新，同时也在推动模型高效化、本地化，使得每个人无论计算资源如何，都能享受到AI技术的发展红利。这种创新精神与开源文化，标志着DeepSeek不单是市场的竞争者，更是全球人工智能进步的一部分。

商业界的动态也随之发生了变化。DeepSeek的开源模式给同行带来了压力，x公司就在Grok3发布后的不久宣布将提供其服务，表示“直到服务器崩溃为止”。这种行为的意义在于反映出中美企业在模型研发与产品服务上的策略差异：一个以性能为导向，另一个则以用户体验和成本效益为重心。

在对比两者的倾向时，Grok3所采用的大规模算力与DeepSeek所追求的开放性与性价比，是中美大模型竞争中最鲜明的特征。未来，随着技术的不断发展与迭代，究竟哪一条道路将会成就更大的成功，值得期待。在大模型的争夺中，中美两国的企业都在以各自的方式为全球人工智能的发展贡献着自己的智慧。

借助区域优势与技术积累，中美两国在大模型的探索中都在不断探索与创新。无论最终哪条路径能够胜出，这场技术的角逐将极大地推动人工智能的发展，塑造出一个更加智能与高效的未来。

中美大模型竞争：Grok3凭借强大算力登顶，DeepSeek追求开源与性价比

精品推荐

相关文章