李飞飞团队与DeepSeek共推Qwen模型，引领AI开源新潮流

时间：2025-02-07 19:20

小编：星品数码网

近年来，AI大模型技术迅速发展，成为科技界的一大亮点。近期，李飞飞团队与DeepSeek的合作，将目光聚焦在了阿里云通义千问Qwen模型上，引发了业界的广泛关注和热议。这个新兴的Qwen模型在性能和开源策略上的双重优越，不仅吸引了各大团队的参与，也为开源生态系统注入了新活力。

据悉，李飞飞团队借助阿里云通义千问Qwen2.5-32B-Instruct开源模型，利用16块H100 GPU进行监督微调，仅用26分钟便成功训练出了新模型s1-32B。这一创新方式不仅显示了团队在技术上的突破，更在数学和编码能力上与OpenAI的o1及DeepSeek的R1等顶尖模型相媲美，尤其在竞赛数学问题的表现上，s1-32B比o1-preview高出27%，令业内人士刮目相看。

DeepSeek早前也曾宣布将DeepSeek-R1的推理能力蒸馏为6个开源模型，其中4个正是以Qwen为基础进行开发。这些基于Qwen-32B的模型在多项能力上已实现了与OpenAI o1-mini的良好对标。这一现象反映了Qwen模型不仅满足了顶尖科研团队对模型性能的高标准，更为不同的开发团队提供了多样化的技术开发路径，助力各自领域的进一步研究与应用。

Qwen模型因其独特之处，迅速成为开源社区的焦点。李飞飞团队与DeepSeek相继选择Qwen作为基座模型，这一现象的背后不仅展示了Qwen模型强大的技术实力，同时也体现了开源理念在推动科技进步方面的重要作用。Qwen模型究竟具备哪些吸引力，怎样在短时间内赢得众多用户的青睐？

Qwen模型的卓越性能是其一大亮点。阿里云推出的通义千问Qwen系列，自2023年8月起相继发布了包括Qwen、Qwen1.5、Qwen2、Qwen2.5在内的多代模型，涵盖了大语言模型、多模态模型、数学模型和代码模型等多种类型。这些模型在全球的多个权威排行榜上屡获佳绩，展示了其领先的性能。例如，在HuggingFace的Open LLM Leaderboard、Chatbot Arena的盲测排行榜，以及司南OpenCompass等知名榜单上，Qwen模型始终保持着强劲的竞争力，为开发者提供了可靠的基础，确保其在各种应用场景中的优异表现。

Qwen模型开放的开源策略也是受到欢迎的重要原因。从模型的尺寸和版本来看，阿里云的Qwen系列实现了前所未有的全面开放，从1.5B到72B，甚至110B的多样选择，满足了不同开发者和企业的需求。2024年，仅Qwen2.5-1.5B-Instruct这款模型的下载量便占据全球模型市场的26.6%，远超排名第二的Llama-3.1-8B-Instruct-GGUF的6.44%。而在视觉理解方面，Qwen-VL和Qwen2-VL的累计下载量也已突破3200万次，显示出强劲的用户基础和市场需求。

，Qwen模型的火爆也源于其衍生模型的庞大数量。当前，全球范围内基于Qwen开发的衍生模型数量已突破9万，超越了Llama系列的衍生模型，成为全球最大的生成式语言模型家族。此现象不仅反映了Qwen模型在技术上具备优越的可扩展性与适应性，更成为全球AI模型开发者进行技术比较的重要参考基准，进而推动其在开源社区中的持续热度。这种良性生态的构建，使得Qwen模型成为了开源社区中重要的标杆基座模型。

通过以上分析，可以看出Qwen模型凭借其卓越性能、全面开源化及庞大的衍生模型群已然成为开源社区不可或缺的重要组成部分。李飞飞团队与DeepSeek选择共同开发Qwen模型，是看重了其在人工智能领域的广泛应用潜力，同时也显示了开源理念在推动技术创新与推广方面的巨大作用。随着人工智能技术的不断演进，Qwen模型势必将在未来的科技发展中继续引领开源潮流，为全球AI的进步贡献出积极的力量。

李飞飞团队与DeepSeek共推Qwen模型，引领AI开源新潮流

精品推荐

相关文章