中国初创公司DeepSeek推出低成本大语言模型V3，性能媲美顶尖模型引发行业震动

时间：2025-01-01 19:20

小编：小世评选

在人工智能领域，大语言模型的研发一向被视为技术和资金的双重挑战。传统上，训练一个高性能的大语言模型需要投入上亿美元，来自中国杭州的初创公司深度求索（DeepSeek）成功打破了这一常规，宣布推出其新一代开源大语言模型DeepSeek V3，训练成本只有557万美元（约758万新元），这一数字的低廉程度让整个行业为之震动。

在12月26日发布的技术论文中，深度求索披露了DeepSeek V3的训练细节以及评测结果。根据测试数据，该模型在百科知识、代码生成和数学能力等方面的表现超过了阿里云的Qwen2.5-72B和Meta的Llama-3.1-405B，实力甚至与OpenAI的GPT-4o和Claude-3.5-Sonnet不相上下。特别是在数学领域，DeepSeek V3在美国数学竞赛（AIME 2024）和中国全国高中数学联赛（CNMO 2024）中的表现大幅领先所有可比较的模型。

DeepSeek V3的训练过程共使用了2048张由英伟达特制的弱化版H800芯片，训练时间为278万个GPU小时，整个过程持续约两个月。相对而言，Meta的Llama-3.1模型需要使用1万6000张H100芯片，耗时3080万个GPU小时，其单纯的芯片成本就高达6.4亿美元。显然，深度求索在高效利用算力方面做出了卓越的贡献。

与其他模型通常依赖强化学习架构不同，DeepSeek V3采用了自主研发的混合专家（Mixture of Experts）和多头潜在注意力（Multi-head Latent Attention）架构。通过将不同任务分配给专门的“专家”，这一创新使得模型在计算资源上得以优化，极大降低了训练成本。这样的架构设计相似于企业在各自领域内分工合作，使得每位专家仅处理其擅长的任务，极大提升效率。

不过，尽管DeepSeek V3的性能引人注目，但也存在一些小瑕疵。在测试中，它在一些文字题目上处理的速度较慢，且曾对自身的身份产生混淆，错误地将自己称为ChatGPT。这并未削弱其整体能力的认可，广发证券的测试表明，DeepSeek V3在逻辑推理和代码生成领域确实展示了独特的优势。

值得注意的是，深度求索的迅速崛起并非偶然。作为量化巨头幻方量化的子公司，深度求索在之前的DeepSeek V2模型发布中已经证明了其在大语言模型领域的潜力。DeepSeek V2以其低至GPT-4 Turbo价格的1%而迅速改革了市场价格。深度求索创始人梁文锋强调，降低成本的初衷在于让更多人能够使用AI技术，从而推动技术的普及化。

中国的AI企业在面对美国的技术壁垒和禁令时，逐渐找到了一条新的发展路径。尽管美国自2022年起限制中国企业采购先进AI芯片，但越来越多的国内开发者开始尝试用新颖的架构和算法在算力不足的情况下进行突破。例如，腾讯推出的混元-Large模型采用了与DeepSeek相似的MoE架构，展现出与Meta Llama-3.1相当的性能，却仅需十分之一的算力。

DeepSeek的成功不仅仅在于其低质量的模型训练成本，更在于这一策略可能引领一种新的发展趋势。随着涌现出越来越多入门门槛低、价格亲民的大语言模型，整个行业可能会进入一个新的竞争阶段，促使AI技术进一步普及和发展。这也意味着，无论是美国还是中国，企业在AI领域的竞争将愈发白热化。

DeepSeek V3的发布标志着中国在人工智能领域的新进展与突破，其低成本且高效的模型架构有望推动未来大语言模型的发展方向。行业内的巨头们面临新的挑战，不得不加快步伐，以适应这一变化莫测的市场格局。在充满机遇与挑战的AI世界里，创新和效率将是企业生存与繁荣的关键。

中国初创公司DeepSeek推出低成本大语言模型V3，性能媲美顶尖模型引发行业震动

精品推荐

相关文章