DeepSeek发布开源V3模型,训练成本仅557.6万美元引发行业关注
时间:2025-01-06 19:00
小编:小世评选
近日,DeepSeek(深度求索)推出的新一代MoE模型DeepSeek-V3引起了业界的极大关注。在2024年末,这一独立的AI公司发布的V3模型以6710亿参数和370亿激活参数,在14.8万亿token的基础上进行了预训练,标志着其在开源模型领域的一次重大突破。
根据DeepSeek的公开数据,DeepSeek-V3在知识类任务(如MMLU、MMLU-Pro、GPQA、SimpleQA)中的表现,已接近当前市场上最优秀的Claude-3.5-Sonnet-1022模型。在代码生成能力方面,V3同样表现出色,甚至在数学能力方面明显领先于市场上其他开源与闭源模型,包括Qwen2.5 72B-Inst和GPT-4o 0513。这一切使得DeepSeek-V3成为一个引人注目的开源模型,它的性能表现引发了广泛的讨论。
更让业内人士惊叹的是DeepSeek-V3的训练成本仅为557.6万美元,使用的GPU时间约为278.8万个小时。这一成本几乎是同等性能模型训练所需费用的十分之一,令市场重新思考如何在控制成本的同时维持模型性能的提升。DeepSeek的创举在2024年初的API价格战中已初显端倪,特别是它引入的“MoE架构与MLA(多头潜在注意力)技术”,有效降低了大模型的使用成本。
行业分析认为,DeepSeek的低成本模式对其它AI企业具有复制的价值。在国内AI产业中,算力短缺一直是困扰公司的主要问题,尤其在高端英伟达GPU显卡被禁后,拥有强大计算能力的企业屈指可数。DeepSeek的成功与其母公司幻方的设备储备密不可分——他们拥有超过1万张英伟达显卡,为公司的算力需求提供了保障。
DeepSeek-V3在训练过程中仅使用了2048张英伟达H800 GPU,这一数量远低于Meta旗下的Llama-3.1使用的16000张H100 GPU,展现出了更为优异的算力利用率。这种独特的训练架构,让DeepSeek获得了额外的认可,诸如Meta的科学家和特斯拉的前AI总监均在社交上对其高度评价,称其为“黑科技”。
DeepSeek团队特别注意到,降低AI开发成本已成为全行业的重要趋势,尤其在当前市场环境下。尽管OpenAI尚未发布期待已久的GPT-5,但其推出的轻量化模型如GPT-4o等仍显示出强烈的降本需求。这一变化促使AI产业在算力不足的条件下,寻找更高效的模型训练方法。
DeepSeek所采用的模型压缩、专家并行训练和FP8混合精度训练等创新技术,不仅在其V3模型中展现出优势,同时为其他公司提供了可借鉴的经验。这些技术的引入极大地减少了模型的内存需求和计算负担,虽然一些网友对此技术的稳定性持保留意见,但FP8制成的潜能颇具吸引力,业内对其发展前景充满期待。
Talent is the crux of DeepSeek's success. The company has built a highly-coveted team composed of young talents from top universities, which has been a significant driving force behind its innovation. The immense interest from larger corporations in recruiting DeepSeek's talent highlights the value of these individuals in the industry.
技术的有效架构设计也是DeepSeek-V3的成功所在。与前一版本相比,DeepSeek-V3利用了更精细的专家分配和更高效的共享专家机制,这些创新大大提升了模型的性能和推理效率。对于是否能被其他厂商成功复制,业内人士认为虽然理论可行,但实践中存在较高的门槛。
展望未来,DeepSeek已在筹备面向公众和企业的具体应用,可能推出更多以V3模型为基础的产品。这一系列的策略表明,DeepSeek可能在某些应用领域迅速建立自身的优势。同时,DeepSeek开放的API接口可以促进更多开发者和企业建立合作,助力行业的快速发展。
DeepSeek-V3不仅是一个技术突破,更是为AI行业的未来提供了新的参考方向。尽管未来的发展依然充满不确定性,但DeepSeek凭借其强大的技术实力和创新精神,会在市场中产生深远的影响。许多观察家认为,DeepSeek如同一颗潜在的明星,能够引领大模型的下一轮技术革命。