DeepSeek发布开源V3模型，训练成本仅557.6万美元引发行业关注

时间：2025-01-06 19:00

小编：小世评选

近日，DeepSeek（深度求索）推出的新一代MoE模型DeepSeek-V3引起了业界的极大关注。在2024年末，这一独立的AI公司发布的V3模型以6710亿参数和370亿激活参数，在14.8万亿token的基础上进行了预训练，标志着其在开源模型领域的一次重大突破。

根据DeepSeek的公开数据，DeepSeek-V3在知识类任务（如MMLU、MMLU-Pro、GPQA、SimpleQA）中的表现，已接近当前市场上最优秀的Claude-3.5-Sonnet-1022模型。在代码生成能力方面，V3同样表现出色，甚至在数学能力方面明显领先于市场上其他开源与闭源模型，包括Qwen2.5 72B-Inst和GPT-4o 0513。这一切使得DeepSeek-V3成为一个引人注目的开源模型，它的性能表现引发了广泛的讨论。

更让业内人士惊叹的是DeepSeek-V3的训练成本仅为557.6万美元，使用的GPU时间约为278.8万个小时。这一成本几乎是同等性能模型训练所需费用的十分之一，令市场重新思考如何在控制成本的同时维持模型性能的提升。DeepSeek的创举在2024年初的API价格战中已初显端倪，特别是它引入的“MoE架构与MLA（多头潜在注意力）技术”，有效降低了大模型的使用成本。

行业分析认为，DeepSeek的低成本模式对其它AI企业具有复制的价值。在国内AI产业中，算力短缺一直是困扰公司的主要问题，尤其在高端英伟达GPU显卡被禁后，拥有强大计算能力的企业屈指可数。DeepSeek的成功与其母公司幻方的设备储备密不可分——他们拥有超过1万张英伟达显卡，为公司的算力需求提供了保障。

DeepSeek-V3在训练过程中仅使用了2048张英伟达H800 GPU，这一数量远低于Meta旗下的Llama-3.1使用的16000张H100 GPU，展现出了更为优异的算力利用率。这种独特的训练架构，让DeepSeek获得了额外的认可，诸如Meta的科学家和特斯拉的前AI总监均在社交上对其高度评价，称其为“黑科技”。

DeepSeek团队特别注意到，降低AI开发成本已成为全行业的重要趋势，尤其在当前市场环境下。尽管OpenAI尚未发布期待已久的GPT-5，但其推出的轻量化模型如GPT-4o等仍显示出强烈的降本需求。这一变化促使AI产业在算力不足的条件下，寻找更高效的模型训练方法。

DeepSeek所采用的模型压缩、专家并行训练和FP8混合精度训练等创新技术，不仅在其V3模型中展现出优势，同时为其他公司提供了可借鉴的经验。这些技术的引入极大地减少了模型的内存需求和计算负担，虽然一些网友对此技术的稳定性持保留意见，但FP8制成的潜能颇具吸引力，业内对其发展前景充满期待。

Talent is the crux of DeepSeek's success. The company has built a highly-coveted team composed of young talents from top universities, which has been a significant driving force behind its innovation. The immense interest from larger corporations in recruiting DeepSeek's talent highlights the value of these individuals in the industry.

技术的有效架构设计也是DeepSeek-V3的成功所在。与前一版本相比，DeepSeek-V3利用了更精细的专家分配和更高效的共享专家机制，这些创新大大提升了模型的性能和推理效率。对于是否能被其他厂商成功复制，业内人士认为虽然理论可行，但实践中存在较高的门槛。

展望未来，DeepSeek已在筹备面向公众和企业的具体应用，可能推出更多以V3模型为基础的产品。这一系列的策略表明，DeepSeek可能在某些应用领域迅速建立自身的优势。同时，DeepSeek开放的API接口可以促进更多开发者和企业建立合作，助力行业的快速发展。

DeepSeek-V3不仅是一个技术突破，更是为AI行业的未来提供了新的参考方向。尽管未来的发展依然充满不确定性，但DeepSeek凭借其强大的技术实力和创新精神，会在市场中产生深远的影响。许多观察家认为，DeepSeek如同一颗潜在的明星，能够引领大模型的下一轮技术革命。

DeepSeek发布开源V3模型，训练成本仅557.6万美元引发行业关注

精品推荐

相关文章