中国AI初创公司“深度求索”推出超低成本大模型DeepSeek-V3,引领行业变革
时间:2025-01-07 01:00
小编:小世评选
在汇金国际大厦的高楼中,俯瞰着繁忙的京杭大运河,深度求索这家初创公司正在引领着中国人工智能领域的新潮流。作为美国硅谷所称的“东方神秘力量”,深度求索近期推出的第三代大语言模型DeepSeek-V3,以其超低的训练成本震撼了全球AI界。根据报告,其训练消耗的算力仅为Llama 3 405B的1/11,这一惊人数据快速引发了行业关注。
深度求索的创始人梁文锋,作为80后的高才生,在浙大的求学经历奠定了其深厚的技术基础。作为母公司幻方量化的创始人,他在成立公司的短短一年半时间内,带领团队在AI领域迅速崛起。相比而言,深度求索的团队人数不到150人,显示出其“精而巧”的运作模式。团队内核心成员多为应届毕业生,梁文锋提倡“看能力,而不是经验”的理念,扩大了年轻人才在大模型研发中的参与机会。
深度求索的技术创新尤为突出,DeepSeek-V3在训练方法和模型架构上进行了多重改革。尽管采用的是熟悉的Transformer架构,但他们独特的多头潜在注意力机制(MLA)和自研的DeepSeekMoE(混合专家架构)有效压缩了计算需求,提高了训练的经济效益。知名科技博主Rick张指出,DeepSeek的训练方式不同于OpenAI“大水漫灌”的模式,先对数据进行和分类再进行训练,这一创新使得模型训练过程更为规范化。
具体来看,DeepSeek-V3在训练成本方面的优势显著。它的训练过程仅使用2048块GPU,且耗时不到两个月,最终花费约550万美元,相较于OpenAI的GPT-4的1亿美元的训练成本,后者的开销可谓不可同日而语。这一“拼多多”的做法,虽引发不少关注,却并非简单的“亏钱赚吆喝”。梁文锋明确表示,DeepSeek的定价策略基于成本之上适度的利润,而非依赖低价竞争。
在行业竞争中,DeepSeek的出现引发了对中国大模型市场的重新审视。随着大模型市场的激烈竞争,DeepSeek曾在上半年引领了一场价格战,推理成本一度降低至每百万token仅1元,使得其他竞争者纷纷效仿其低价策略。在此背景下,深度求索的称号也被调侃为“AI界拼多多”,展现了其在行业中的独特定位。
深度求索逐渐崛起的同时,也面临着“站在巨人的肩膀上”的质疑。不少业内人士认为,DeepSeek-V3的成功难免依赖于OpenAI等前沿技术的基础。尽管如此,深度求索在FP8训练模型方面的创新,说明他们并非只是简单模仿,而是在底层技术上进行了自己的探索。
人们普遍认为,DeepSeek的出现是一种颠覆性的变革。清华大学教授沈阳表示,从深度思考的角度,DeepSeek不仅在国内大模型领域具有开创性,其开源策略也可能为全球AI行业带来新的思考与影响。质疑声并未浇灭行业对其未来的期待,反而可能推动技术向更高水平进化。
随着AI行业的快速发展,DeepSeek在大型模型竞争中逐渐锁定其发展方式。尽管当前商业化进程尚不明确,但其始终坚持开源路线与研发创新,正是在人工智能领域展开科技探索的重要尝试。业内人士表示,这种专注于技术研发的态度是深度求索的一大优势。
在未来的发展中,DeepSeek不仅仅是想打破“国外从0到1,中国从1到N”的定式思维,更可能是我们认知AI市场的一次重新洗牌。在的岁月里,DeepSeek将继续发挥其技术优势与创新精神,推动整个行业的快速前行。无论是从成本控制、技术迭代,还是人才培养和公司文化来看,深度求索都有望在AI领域持续书写辉煌篇章。随着行业竞争的激烈程度不断加剧,DeepSeek的表现将被寄予厚望,未来值得我们期待。