免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > DeepSeek发布新AI大模型R1 引发全球科技圈震动

DeepSeek发布新AI大模型R1 引发全球科技圈震动

时间:2025-01-27 02:20

小编:小世评选

近日,中国的新兴AI企业DeepSeek(深度求索)震撼了全球科技圈,正式发布了其最新的AI大模型——DeepSeek-R1。该模型在多个领域的表现已引发行业热议,甚至被认为在数学、代码生成和自然语言推理等任务上,其性能已经可以与OpenAI的最新模型相媲美。这一消息令不少美国科技公司的研究团队深感震惊,认为中国的AI技术正在迅速迎头赶上。

在美国科技公司员工社区Blind上,一位Meta的工程师发声:“Meta生成式AI部门在DeepSeek发布后感到恐慌。我们发现,DeepSeek已经超越了我们的Llama 4,而这个不知名的公司仅花费了550万美元的训练预算。我们正在竭尽所能剖析DeepSeek,并试图摘取其中的精华。”

这并非偶然。在最近的达沃斯世界经济论坛上,Scale AI的创始人亚历山大·王(Alexandr Wang)指出,DeepSeek的AI大模型性能大致可以与美国最顶尖的模型相提并论。他认为,过去十年中,中国在AI领域的追赶虽然缓慢,但DeepSeek的发布可能会改变这一格局。

DeepSeek的崛起,与其创始人梁文锋的背景密不可分。梁文锋出生在中国广东省一个不大的城市,17岁考入浙江大学,成为典型的“小镇做题家”。硕士毕业后,他便涉足量化交易,通过结合AI与数学技术创办了量化投资公司幻方科技。至2023年,尽管幻方量化的管理规模有所下降,但德报道表明,梁文锋在AI技术上的追求并未止步。

DeepSeek的快速追赶离不开其庞大的算力支持。根据梁文锋的说法,DeepSeek面临的主要挑战不是资金,而是获取高端算力的使用权。DeepSeek近期获得了AMD的支持,正在使用市场上最强的AI芯片之一MI300X进行大模型的训练。

令人关注的是,DeepSeek的训练方式与众不同。其最新的大模型R1采用了名为“DeepSeek-R1-Zero”的创新路径,通过直接应用强化学习(RL),不依赖于监督微调(SFT)和已标注数据进行训练。这一创新使得DeepSeek-R1能够在无监督的情况下自我演化,展现出惊人的推理能力。根据AIME 2024的基准测试,R1的准确率高达86.7%,标志着直接强化学习在高级推理模型训练中的有效性。

尽管DeepSeek的成就引发瞩目,但其背后也面临着不小的挑战。美国对中国半导体出口的限制,可能会在未来对DeepSeek及其他中国AI公司带来影响。尽管DeepSeek仍然创造出R1的成果,西雅图的研究员Francois Chollet则指出,“高效利用资源比单纯的计算规模更重要。”

美国的科技巨头们并未对DeepSeek的成功坐视不管。Alexandr Wang呼吁对DeepSeek的AI芯片进行调查和管制,并认为该公司正在以更快捷、更经济的方式追赶美国的AI技术。他警告说,如果中国的开源技术逐渐在全球范围内获得认可,将对美国的技术主导地位形成挑战。

这场关于AI技术领先的争夺战不仅限于DeepSeek。美国企业同样加大了在AI基础设施领域的投资力度,包括OpenAI与甲骨文的合作,预计将投入高达1000亿的资金用于AI基础设施的建设。而马斯克的xAI也在扩展其超级计算机,以支持其Grok AI模型的训练。

DeepSeek的崛起不仅象征着中国在AI领域的追赶,更反映了全球科技竞争的日益激烈。尽管DeepSeek在模型技术上取得了显著成果,但未来仍将面临来自市场和政策的压力。如何在这样的环境中继续保持竞争优势,对DeepSeek和其他AI企业都是一场严峻的考验。DeepSeek是否能够在国际舞台上站稳脚跟,实现其战略目标,还有待进一步观察。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多