阿里发布Qwen2.5-Max大模型,股价一度涨超7%
时间:2025-01-30 06:20
小编:小世评选
在新春佳节的第一天,阿里巴巴正式发布了其最新的大规模人工智能模型Qwen2.5-Max,标志着阿里云通义千问在AI领域的新一轮突破。此模型于1月29日凌晨正式上线,预训练数据量达到惊人的20万亿tokens,体现了阿里在混合专家(MoE)模型上的领先地位。
Qwen2.5-Max不仅在技术上取得了巨大的进步,还在多项权威的AI模型评测中展现了其卓越的综合性能,全面超越了当前全球领先的开源MoE模型以及最大的开源稠密模型。这一发布引发了资本市场的热烈反应,阿里巴巴在美股市场上股价瞬间上涨超过7%,最终以96.03美元的收盘价上涨6.71%。
与Qwen2.5-Max展开竞争的,是目前备受关注的DeepSeek V3模型。近期,DeepSeek的动态已对美股市场产生影响,导致英伟达等科技巨头的股价波动。这场围绕AI技术的竞争不仅在科技圈内引发热议,也引起了美国的注意,多个美国官员直言DeepSeek可能存在“知识产权窃取”的问题,引发国家安全调查。
阿里通义千问团队表示,Qwen2.5-Max采用了超大规模的混合专家架构,经过精心设计的后训练方案进行训练,使其在知识回答、编程能力及人类偏好的对齐上均展现出全球领先的模型性能。该模型在多个基准测试中均优于Claude-3.5-Sonnet,而在评估中几乎全面超越GPT-4o、DeepSeek V3等多个对手。
除了Qwen2.5-Max,阿里还在同一天开源了全新的视觉理解模型Qwen2.5-VL,并推出了三种不同规模的版本,其中旗舰版在视觉理解的权威评测中表现不俗,领先于GPT-4o和Claude3.5模型。
Qwen2.5-Max的推出,使得阿里巴巴美股在资本市场的表现明显提振,市场对中国AI资产的重估讨论逐渐升温。过去一段时间,阿里股价在经历了2020年的高峰后,一直处于下行趋势。随着Qwen2.5-Max的发布,外界对其在大模型领域的竞争力与未来发展充满期待。
业内专家分析认为,阿里云不仅具备与全球顶尖模型相竞争的能力,同时拥有完整的云生态系统,可能在未来的竞争中形成良好的投资逻辑。这一背景下,DeepSeek虽然因其开源和技术驱动的特性受到瞩目,但在核心技术上,国内互联网大厂亦展现出强大的大模型能力,例如字节跳动的豆包、腾讯的混元等。
一位不愿透露姓名的技术专家向记者坦言,DeepSeek虽因获得足够的资源和关注,表面上看似在发展战略上胜出,但实际上,中国大厂在技术和市场上并不逊色。他指出,DeepSeek的成功,是市场环境及融资形势的产物,其对大语言模型的聚焦,使其在短时间内取得了相对的优势。
与DeepSeek不同,字节跳动的豆包大模型在多个评测基准上也表现出色,但由于没有引起足够的市场关注,因此未能形成较大的冲击。尽管DeepSeek解决了传统模型训练所需的高算力资源问题,但其他大模型厂商在多模态数据处理和应用实时性等方面,仍然具备更全面的竞争优势。
数据蒸馏作为一种广泛应用的技术,虽在行业中引起争议,但多名业内人士认为,蒸馏的使用反映了当前模型训练的普遍现象。尤其在美国,深度学习和人工智能的发展也逐渐将这一技术视作重要的研究方向。
随着AI技术的飞速发展,阿里通义千问的Qwen2.5-Max及新开源的视觉模型,都为中国的人工智能行业注入了新的活力。这不仅预示着国内大模型领域的快速进步,更预示着全球AI竞争格局正在悄然发生变化。未来,随着技术的不断革新,市场对AI产品的需求将激增,而这场关于模型性能、技术应用与市场策略的较量,将持续引发全球范围内的广泛关注与讨论。