中国团队打造DeepSeek-V3：以557万美元击败GPT-4o，性能惊艳全网

时间：2024-12-31 22:00

小编：小世评选

编辑：小桃子好困

在机器学习领域，一项名为DeepSeek-V3的新模型令全网震惊。这个中国团队的杰作，以仅557万美元的成本，成功训练出能够与市场领先的GPT-4o抗衡的人工智能模型。这一成果不仅展示了深度学习的努力，更点燃了全球对AI发展的热情。今日，我们将深入探讨DeepSeek-V3的崛起及其在技术上的突破。

DeepSeek-V3是一款拥有671B参数的MoE（混合专家）模型。其推理性能以每秒高达60个token的速度运转，让人叹为观止。这相较于其前一代模型DeepSeek-V2的吞吐量提升了三倍，在众多基准测试中表现出色。尤其在数学代码生成任务上，DeepSeek-V3的性能完全碾压了GPT-4o，而在中文处理能力方面，更是超越了许多国外大模型，让国内外专家都深感惊讶。

这款新模型于14.8T高质量的token数据上训练，并且全程开源，模型和论文都可在上获取。值得注意的是，DeepSeek-V3的训练成本极低，仅用2048块GPU，在两个多月内完成了模型训练，相比之下，许多国际巨头所需的训练资源则要高得多。例如，Llama 3 405B模型耗费了3100万GPU小时，而DeepSeek-V3仅用到280万GPU小时，计算量减少约11倍。

这个案例是当前AI技术发展的一个重要里程碑。业界知名学者Karpathy对此倍感惊叹。他指出，若要达到类似的模型能力，往往需要大规模的计算集群，通常需要约1.6万个GPU。DeepSeek-V3的训练效率和成本控制，让大家意识到后续模型开发中如何更好地利用现有资源，避免资源浪费。

受访专家贾扬清提出，当前已正式进入分布式推理的时代，因为单个GPU的显存已难以承载如此庞大的模型。尽管更新大显存机器能够容纳更多参数，但实现性能优化及未来的扩展依然需要依赖分布式推理。贾扬清强调，DeepSeek-V3引入的“redundantexpert”概念，是完美解决推理过程中负载均衡问题的关键。

在基准测试中，DeepSeek-V3在数学领域MATH 500上获得了90.2的高分，显著超过了Claude 3.5 Sonnet和GPT-4o。在AIME 2024测试中，DeepSeek-V3的成绩也有近20分的领先优势。在Codeforces编程竞赛基准上，DeepSeek-V3的得分为51.6，刷新了目前的最高记录，也是同类模型中最强的表现之一。这些优异的成绩，再一次确认了DeepSeek-V3在多项领域性能上的领先地位。

DeepSeek-V3的成功，并非偶然。它通过采用多头潜在注意力（MLA）和DeepSeekMoE模型，结合了有效的训练策划，使得模型在效率与能力上都有显著提升。团队还引入了无辅助损失（auxiliary-loss-free）方法，确保了负载均衡并且最小化了其对模型性能造成的不利影响。同时，通过多token预测训练目标的设计，进一步增强了该模型在评估基准上的表现。

在技术实现方面，DeepSeek-V3采用了FP8混合精度训练，以降低GPU内存使用并加速训练过程。其预训练阶段用时不足两个月，表现相当稳定。完整训练过程中没有出现不可恢复的损失突增现象，这在大型深度学习模型的训练中可谓是非常罕见的。

随着DeepSeek-V3的发布，许多开发者和AI爱好者纷纷前来体验这个开源模型。令人惊讶的是，有开发者利用DeepSeek-V3快速创建了一个小行星游戏，这是在展示模型的高效和强大。网友们对于DeepSeek-V3的性能和低成本训练更是赞不绝口。

DeepSeek-V3的出现，不仅是中国在AI领域的一次重大突破，也是全球人工智能研究的重要里程碑。其极低的训练成本与优秀的性能，让我们对未来的AI发展充满期待。随着更多团队和研究者深入探索这个领域，未来我们将见证更多的技术创新与产业变革。无论是继续提升智能体性能，还是打造更为智能、全面的应用场景，DeepSeek-V3的发售会成为推动AI前行的新动力。

中国团队打造DeepSeek-V3：以557万美元击败GPT-4o，性能惊艳全网

精品推荐

相关文章