阿里云推出新推理模型QwQ-32B 性能媲美DeepSeek-R1 可本地部署
时间:2025-03-07 18:30
小编:小世评选
智东西在3月6日的报道中提到,阿里云于今日凌晨正式发布了其最新的推理模型——QwQ-32B。这款模型凭借其卓越的性能,标志着阿里云在人工智能推理领域迈出了重要一步。与以往的大型模型相比,QwQ-32B不仅在计算资源的需求上进行了大胆创新,也在性能表现上将自身定位于业界顶尖水平。根据官方介绍,QwQ-32B的性能表现与DeepSeek-R1相持平,而其参数量却仅为32B,这一差距可谓显著,DeepSeek-R1的参数量达到671B,相差接近20倍。
在众多基准测试中,QwQ-32B在数学推理和编程能力上的成绩尤为引人注目。试验结果显示,QwQ-32B在AIME24评测集和LiveCodeBench中的表现与DeepSeek-R1十分接近,并且在某些情境下超越了多个同类模型,如o1-mini及同为R1的蒸馏版本。这意味着即使是在资源有限的消费级显卡上,用户也可以轻松实现本地部署,从而提升了模型的实用性和可获取性。
知名机器学习科学家Awni Hannun(吴恩达的学生)通过发文展示了在采用MLX框架的苹果M4 Max芯片电脑上,QwQ-32B的运行速度非常快。这为更广泛的应用场景奠定了基础。值得注意的是,QwQ-32B以Apache 2.0许可证的形式开源于Hugging Face和ModelScope,这意味着企业和学术机构可以在没有限制的情况下进行商业化和研究,直接为其产品和应用添加强大的AI动力,而无需担心授权费用。
在一系列的标准基准测试中,QwQ-32B展现出了优异的表现,尤其是在对比中显示出相较于DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B等 models得分更高。在多项测试中,包括指令遵循能力的IFEval评测、准确调用函数或工具的BFCL测试等,QwQ-32B均取得了超越DeepSeek-R1的出色成绩。
更为令人瞩目的是,QwQ-32B的硬件需求也显著低于DeepSeek-R1。在运行完整的DeepSeek-R1时,用户需要的显存高达1500GB,而使用QwQ-32B时,则只需要24GB的GPU显存,如最新的英伟达H100显卡即可满足需求。这一新特性使得更多开发者和研究人员能够在本地进行推理和应用,而无需投入巨额的计算资源。
社交X上的网友们对此模型给予了高度评价,评论区中充斥着“太震惊了”的言论。一位机器学习爱好者Vaibhav (VB) Srivastav强调,QwQ-32B的推理速度极快,能与顶级模型媲美,另一位AI新闻发布者@Chubby也表示QwQ-32B“实在太疯狂了!”。这些网络热议词汇不仅反映了公众对QwQ-32B的高度认可,也预示着该模型在市场上的良好前景。
关于QwQ-32B的编码能力,也吸引了不少网友的关注,有用户分享了他关于使用p5.js编写动画的实验、并称赞其能力相当于o1-mini,展现出极强的本地部署潜力。也有网友指出,由于QwQ-32B与DeepSeek-R1的尺寸差异,用户在实际应用中仍需具备高带宽内存来进行推理,大约需要5%的高带宽内存。
在训练方法上,QwQ-32B通过大规模强化学习推动性能提升。在初始阶段,研究人员针对数学和编程任务进行了强化学习的训练,确保生成答案的验正确性,从而不断提升模型的性能。在后续阶段,模型又进入通用奖励模型的训练,以增强其指令遵循能力和推理能力,同时保证数学和编码特长的不受影响。
具体而言,QwQ-32B采用了64个Transformer层,并结合了多种最新技术如RoPE、SwiGLU等,支持131072个Tokens的上下文长度,能够更有效地处理长序列输入。模型的多阶段训练方法,包括预训练、监督微调及强化学习,使其在AI应用中表现出色。基于QwQ-32B,通义千问团队计划继续扩展并优化强化学习,以探索更高效的AI模型可能性,努力推动向通用人工智能发展。
阿里云的QwQ-32B推理模型不仅具有较高的性能和灵活性,同时也在可访问性上为用户提供了新的选择。面对日益竞争激烈的人工智能领域,QwQ-32B可谓是一项引人瞩目的创新和突破,标志着本地化AI应用的新方向。对于开发者和企业这是一个值得期待的时代。