小米升级第二代大语言模型MiLM2,全面提升智能应用能力
时间:2024-11-19 23:32
小编:小世评选
近日,小米公司宣布其第二代大语言模型MiLM2的正式上线,此次升级标志着小米在人工智能领域又迈出了重要一步。自从去年8月小米的第一代大语言模型MiLM问世以来,其在C-Eval和CMMLU等大模型评测榜单中取得了优异成绩,同时也逐步应用于小米汽车、手机及智能家居等产品中。MiLM2的推出将进一步增强小米在智能应用场景中的竞争力。
MiLM2带来了多项显著改进和新功能。根据小米的官方介绍,本次升级不仅扩充了训练数据的规模,提升了数据的品质,还在训练策略与微调机制上进行了深入打磨,增强了技术实力及配套的部署技术。具体MiLM2在以下几个方面进行了全面提升:
1. 参数矩阵的丰富性:第一代模型的参数规模相对较小,而MiLM2则实现了从0.3B到30B的“上下兼顾”。这种设计使得该模型可以更灵活地适应云计算和边缘计算的需求,满足不同场景下的性能要求。
2. 能力维度的提升:根据小米的统计,MiLM2在十个关键能力维度上,与第一代模型相比,平均表现提升超过45%。包括指令跟随、翻译和闲聊等对于智能助手至关重要的能力,MiLM2都表现出色,处于业界前列。
3. 推理加速的方式多样化:MiLM2的端侧部署新增了三种推理加速方案,包括大小模型投机、BiTA和Medusa等。同时,通过自研的量化方案,MiLM2在量化损失上相较于业界标准方案降低了78%,显著提升了模型在资源受限的设备上运行的效率。
4. 长文本处理能力的增强:MiLM2支持最长窗口达到200k,而第一代模型则仅为4k。这一变化极大地提升了它在处理长文本时的表现,使得模型在结构复杂的文本分析中具有更强的能力。
在评测方面,小米的团队自主构建了通用能力评测集Mi-LLMBM2.0,对MiLM2进行了全面评估。评测集涵盖了生成、问答、对话、摘要和安全回复等多个应用场景,共170个细分测试项。在这些测试中,MiLM2-1.3B和MiLM2-6B这两个模型展现出相较于第一代模型的显著进步。
在智能家居、智能助手领域的应用背景下,小米的“人车家全生态”战略要求大语言模型具备更高的智能表现。MiLM2在指令参与、闲聊、翻译等关键能力上表现优异,评测结果显示它在同类参数规模的模型中具备领先优势。
小米的自研大模型矩阵也进行了结构上的创新,涵盖0.3B至30B的多个参数量级,以适应终端设备和云端场景中的不同需求。在终端设备方面,0.3B至6B的模型能够灵活适配不同芯片及存储空间的需求,确保在经济成本和性能之间达到最优平衡。
同时,小米还特别引入了MoE(混合专家模型)结构,推出了MiLM2-0.7B×8和MiLM2-2B×8两个型号。通过并行处理不同“专家”模型,可以提高整体预测的准确度和效率。例如,MiLM2-2B×8在性能上与MiLM2-6B相当,但解码速度提升了50%,使其在运行效率上大幅提升。
如同小米在上代大模型的成功,二代大模型的推出同样在端侧和云端的落地部署上取得了显著进展。新的4B模型以及云端的30B模型,将分别在移动设备与复杂多任务场景中发挥更大的作用。MiLM2-30B模型设计用于应对云环境下的多样化任务,特别是在指令遵循和常识推理能力上,表现得尤为出色。
未来,小米预计将继续推动大语言模型在各种智能产品中的应用,如澎湃OS、小爱同学、智能座舱和智能客服等领域。通过将MiLM2的能力融合进这些产品,小米希望能为用户提供更加智能、便捷的使用体验,并进一步提高工作效率。
MiLM2不仅在技术上取得了显著进步,更是小米在构建智能生态系统过程中又一重要里程碑。随着人工智能技术的不断成熟与发展,小米将在未来持续探索大语言模型的更多潜力,推动更多智能应用的实际落地。