中国AI初创公司“深度求索”推出超低成本大模型DeepSeek-V3，引领行业变革

时间：2025-01-07 01:00

小编：小世评选

在汇金国际大厦的高楼中，俯瞰着繁忙的京杭大运河，深度求索这家初创公司正在引领着中国人工智能领域的新潮流。作为美国硅谷所称的“东方神秘力量”，深度求索近期推出的第三代大语言模型DeepSeek-V3，以其超低的训练成本震撼了全球AI界。根据报告，其训练消耗的算力仅为Llama 3 405B的1/11，这一惊人数据快速引发了行业关注。

深度求索的创始人梁文锋，作为80后的高才生，在浙大的求学经历奠定了其深厚的技术基础。作为母公司幻方量化的创始人，他在成立公司的短短一年半时间内，带领团队在AI领域迅速崛起。相比而言，深度求索的团队人数不到150人，显示出其“精而巧”的运作模式。团队内核心成员多为应届毕业生，梁文锋提倡“看能力，而不是经验”的理念，扩大了年轻人才在大模型研发中的参与机会。

深度求索的技术创新尤为突出，DeepSeek-V3在训练方法和模型架构上进行了多重改革。尽管采用的是熟悉的Transformer架构，但他们独特的多头潜在注意力机制（MLA）和自研的DeepSeekMoE（混合专家架构）有效压缩了计算需求，提高了训练的经济效益。知名科技博主Rick张指出，DeepSeek的训练方式不同于OpenAI“大水漫灌”的模式，先对数据进行和分类再进行训练，这一创新使得模型训练过程更为规范化。

具体来看，DeepSeek-V3在训练成本方面的优势显著。它的训练过程仅使用2048块GPU，且耗时不到两个月，最终花费约550万美元，相较于OpenAI的GPT-4的1亿美元的训练成本，后者的开销可谓不可同日而语。这一“拼多多”的做法，虽引发不少关注，却并非简单的“亏钱赚吆喝”。梁文锋明确表示，DeepSeek的定价策略基于成本之上适度的利润，而非依赖低价竞争。

在行业竞争中，DeepSeek的出现引发了对中国大模型市场的重新审视。随着大模型市场的激烈竞争，DeepSeek曾在上半年引领了一场价格战，推理成本一度降低至每百万token仅1元，使得其他竞争者纷纷效仿其低价策略。在此背景下，深度求索的称号也被调侃为“AI界拼多多”，展现了其在行业中的独特定位。

深度求索逐渐崛起的同时，也面临着“站在巨人的肩膀上”的质疑。不少业内人士认为，DeepSeek-V3的成功难免依赖于OpenAI等前沿技术的基础。尽管如此，深度求索在FP8训练模型方面的创新，说明他们并非只是简单模仿，而是在底层技术上进行了自己的探索。

人们普遍认为，DeepSeek的出现是一种颠覆性的变革。清华大学教授沈阳表示，从深度思考的角度，DeepSeek不仅在国内大模型领域具有开创性，其开源策略也可能为全球AI行业带来新的思考与影响。质疑声并未浇灭行业对其未来的期待，反而可能推动技术向更高水平进化。

随着AI行业的快速发展，DeepSeek在大型模型竞争中逐渐锁定其发展方式。尽管当前商业化进程尚不明确，但其始终坚持开源路线与研发创新，正是在人工智能领域展开科技探索的重要尝试。业内人士表示，这种专注于技术研发的态度是深度求索的一大优势。

在未来的发展中，DeepSeek不仅仅是想打破“国外从0到1，中国从1到N”的定式思维，更可能是我们认知AI市场的一次重新洗牌。在的岁月里，DeepSeek将继续发挥其技术优势与创新精神，推动整个行业的快速前行。无论是从成本控制、技术迭代，还是人才培养和公司文化来看，深度求索都有望在AI领域持续书写辉煌篇章。随着行业竞争的激烈程度不断加剧，DeepSeek的表现将被寄予厚望，未来值得我们期待。

中国AI初创公司“深度求索”推出超低成本大模型DeepSeek-V3，引领行业变革

精品推荐

相关文章