DeepSeek发布新AI大模型R1 引发全球科技圈震动

时间：2025-01-27 02:20

小编：小世评选

近日，中国的新兴AI企业DeepSeek（深度求索）震撼了全球科技圈，正式发布了其最新的AI大模型——DeepSeek-R1。该模型在多个领域的表现已引发行业热议，甚至被认为在数学、代码生成和自然语言推理等任务上，其性能已经可以与OpenAI的最新模型相媲美。这一消息令不少美国科技公司的研究团队深感震惊，认为中国的AI技术正在迅速迎头赶上。

在美国科技公司员工社区Blind上，一位Meta的工程师发声：“Meta生成式AI部门在DeepSeek发布后感到恐慌。我们发现，DeepSeek已经超越了我们的Llama 4，而这个不知名的公司仅花费了550万美元的训练预算。我们正在竭尽所能剖析DeepSeek，并试图摘取其中的精华。”

这并非偶然。在最近的达沃斯世界经济论坛上，Scale AI的创始人亚历山大·王（Alexandr Wang）指出，DeepSeek的AI大模型性能大致可以与美国最顶尖的模型相提并论。他认为，过去十年中，中国在AI领域的追赶虽然缓慢，但DeepSeek的发布可能会改变这一格局。

DeepSeek的崛起，与其创始人梁文锋的背景密不可分。梁文锋出生在中国广东省一个不大的城市，17岁考入浙江大学，成为典型的“小镇做题家”。硕士毕业后，他便涉足量化交易，通过结合AI与数学技术创办了量化投资公司幻方科技。至2023年，尽管幻方量化的管理规模有所下降，但德报道表明，梁文锋在AI技术上的追求并未止步。

DeepSeek的快速追赶离不开其庞大的算力支持。根据梁文锋的说法，DeepSeek面临的主要挑战不是资金，而是获取高端算力的使用权。DeepSeek近期获得了AMD的支持，正在使用市场上最强的AI芯片之一MI300X进行大模型的训练。

令人关注的是，DeepSeek的训练方式与众不同。其最新的大模型R1采用了名为“DeepSeek-R1-Zero”的创新路径，通过直接应用强化学习（RL），不依赖于监督微调（SFT）和已标注数据进行训练。这一创新使得DeepSeek-R1能够在无监督的情况下自我演化，展现出惊人的推理能力。根据AIME 2024的基准测试，R1的准确率高达86.7%，标志着直接强化学习在高级推理模型训练中的有效性。

尽管DeepSeek的成就引发瞩目，但其背后也面临着不小的挑战。美国对中国半导体出口的限制，可能会在未来对DeepSeek及其他中国AI公司带来影响。尽管DeepSeek仍然创造出R1的成果，西雅图的研究员Francois Chollet则指出，“高效利用资源比单纯的计算规模更重要。”

美国的科技巨头们并未对DeepSeek的成功坐视不管。Alexandr Wang呼吁对DeepSeek的AI芯片进行调查和管制，并认为该公司正在以更快捷、更经济的方式追赶美国的AI技术。他警告说，如果中国的开源技术逐渐在全球范围内获得认可，将对美国的技术主导地位形成挑战。

这场关于AI技术领先的争夺战不仅限于DeepSeek。美国企业同样加大了在AI基础设施领域的投资力度，包括OpenAI与甲骨文的合作，预计将投入高达1000亿的资金用于AI基础设施的建设。而马斯克的xAI也在扩展其超级计算机，以支持其Grok AI模型的训练。

DeepSeek的崛起不仅象征着中国在AI领域的追赶，更反映了全球科技竞争的日益激烈。尽管DeepSeek在模型技术上取得了显著成果，但未来仍将面临来自市场和政策的压力。如何在这样的环境中继续保持竞争优势，对DeepSeek和其他AI企业都是一场严峻的考验。DeepSeek是否能够在国际舞台上站稳脚跟，实现其战略目标，还有待进一步观察。

DeepSeek发布新AI大模型R1 引发全球科技圈震动

精品推荐

相关文章