杭州初创企业发布低成本强大语言模型DeepSeek V3，性能超越多款全球顶尖模型

时间：2025-01-02 16:40

小编：小世评选

近日，来自杭州的初创企业深度求索（DeepSeek）在微信公众号上正式发布了其全新的开源大语言模型DeepSeek V3。该模型不仅大幅降低了训练成本，更在多个性能指标上超越了多个国际顶尖模型，令行业内外为之震惊。

DeepSeek V3的推出，标志着大型语言模型的训练成本正在发生颠覆性变化。根据深度求索公布的技术论文，DeepSeek V3的训练总费用仅为557万6000美元，约合758万新元。这一成本大大低于市面上其他知名模型的训练费用，原本需要上亿美元才能训练好的模型，却可以在数百万美元内完成，显示出深度求索在资源优化方面的卓越能力。

DeepSeek V3的成功在很大程度上得益于其独特的技术架构。与当前市场上许多基于强化学习的模型不同，DeepSeek V3采用了自研的混合专家（Mixture of Experts）和多头潜在注意力（Multi-head Latent Attention）架构。这种架构通过将不同任务分配给专门的“专家”模型来进行处理，从而提高了计算资源的利用效率。根据报道，DeepSeek V3训练时仅需2048张弱化版H800显卡，而其他竞争对手如Meta的Llama-3.1模型则需要多达1万6000张更为先进的H100显卡，训练时间也长达3080万个GPU小时，耗资高达6.4亿美元。

在实际性能评测中，DeepSeek V3在百科知识、代码生成和数学能力等关键指标上的表现尤为突出。根据测试结果，该模型在美国数学竞赛（AIME 2024）和中国全国高中数学联赛（CNMO 2024）的评测中获得了90.2分的高分，远超所有其他开源和闭源模型。这一成绩不仅震惊了业界，也为AI技术的未来发展指明了方向。

深度求索自2023年成立以来，便踏入了AI产业的快速发展轨道，迅速在市场上占据了一席之地。不同于依赖大型科技公司投资的大多数初创企业，深度求索的母公司幻方量化早在2021年便已布局于大型语言模型的研究，拥有着强大的技术储备和算力资源。这些背景为DeepSeek V3的成功奠定了扎实的基础，也使得深度求索在短时间内能够迅速崛起。

在发布DeepSeek V2时，深度求索已经凭借其超高性价比获得了广泛关注。相比于同类产品的高昂费用，DeepSeek V2每百万tokens的输入价格仅为1元人民币，而GPT-4 Turbo则高达72元，造成了市场的极大震动。创始人梁文锋表示，这种策略是出于对普惠科技的追求，希望让AI的使用更加普及和便捷。

随着深度求索的迅速崛起，也引发了外界的关注与质疑。有网民指出DeepSeek V3产生的一些答案与ChatGPT相似，甚至在自我介绍时误称自己为GPT-4。这引发了关于其是否利用了ChatGPT生成内容进行训练的讨论，但分析人士普遍认为这可能是由于训练数据的污染所致，而非故意为之。对此，深度求索尚未给予明确回应。

在国内外竞逐AI技术的同时，深度求索也成为推动整个行业成本下降的一个典范。随着越来越多的企业开始关注降低大模型的训练成本，像腾讯推出的混元-Large等新模型也采用了混合专家架构，以期在性能提升的同时，降低算力需求。

DeepSeek V3的发布不仅是深度求索的一次技术突破，更是整个AI产业链的一次成本革命。随着技术的不断迭代与优化，未来大语言模型的训练将变得更加高效、经济。深度求索以其状态非凡的表现和价格优势，势必会对市场产生进一步的冲击，促使更多企业在这一领域展开竞争。AI的未来毫问将更加精彩，期待深度求索和其他初创企业在这一波浪潮中展现出更多潜力与创新。

杭州初创企业发布低成本强大语言模型DeepSeek V3，性能超越多款全球顶尖模型

精品推荐

相关文章