小米音频大模型成绩突破64%，跻身MMAU榜单前列

时间：2025-03-18 00:30

小编：小世评选

3月17日，小米公司正式公布了一项重要的研究进展，其大模型团队在音频推理能力的专业测试集MMAU中取得了令人瞩目的成绩，准确率首次突破了64%。这一突破使得小米的音频大模型跻身MMAU榜单的前列，彰显出该公司在音频理解领域的强大实力。小米强调，新发布的DeepSeek-R1为其在音频推理任务上的研究带来了巨大启发，有助于提升模型的表现。

MMAU测试集是一个专门考察音频大模型在理解和复杂推理能力方面综合表现的评估工具，其中涵盖了27种不同的任务和一万条音频样本，内容包括语音、环境声、以及音乐等多种类型。不同于传统的音频任务，MMAU的设计更加复杂，例如，模型不仅需要识别出语音中的信息，还需要进行推理和解释。比如，其中一个任务要求从10多秒的语音片段中，数出包含至少一个重读音素的单词数量；另一个则要求模型根据美剧《生活大爆炸》中的对话，解释某句台词为何带有讽刺意味。

该测试集的挑战性极高，现有的人类专家在其中的准确率为82.23%。而在榜单上，谷歌的Gemini 2.0 Flash则以55.6%的准确率位列第一。相比之下，小米的大模型不仅以64.5%的准确率超越了谷歌这一表现，还以其仅7B的参数量，显示出其在模型轻量化上的突显优势。这一成绩标志着小米在音频大模型领域取得了实质性进展。

值得注意的是，小米的大模型并非完全是自主研发的，而是基于阿里开源的Qwen2-Audio-7B模型进行的优化和微调。Qwen2-Audio-7B在MMAU测试集上的原始得分为49.2%。通过微调，小米团队利用清华大学发布的AVQA数据集，使得模型能够在更复杂的推理任务中表现出色。这一过程不仅显示了模型优化的能力，也为音频推理领域的其他研究提供了启示。

更重要的是，小米团队这一成就阐明了在音频模型领域中，“DeepSeek-R1”的Group Relative Policy Optimization (GRPO) 方法相较于传统的监督微调（SFT）更具优势。小米方面用易懂的比喻解释了这一点。监督微调方法的局限性在于其如同“背题库”，只能依赖已有的问题和答案进行训练，而遇到新题时可能无能为力；而强化学习的方法则更像是一位教导者，要求学生主动思考，寻找多种答案并进行反馈，从而激发模型的自主思维能力。小米的分析指出，虽然花费了大量时间进行题库的死记硬背能够让学生获得良好的成绩，但这种方式显然效率低下且耗时久远。

小米的研究还发现，使用显式的推理过程进行训练并不总能提升模型的表现，反而可能导致准确率下降至61.1%。这一发现对音频大模型的训练方式提出了新的思考，不需要将显性思维链作为必然的输出，反而可以在一定程度上简化模型的训练过程。

尽管小米的音频大模型准确率已突破了64%，但与人类专家82%的表现相比，仍然存在较大差距。这一前景提醒研究者，音频大模型在听觉和语言推理任务中仍有许多挑战待克服。小米的进步，为未来的研究指明了方向，同时也鼓励了更多科技公司和学术机构继续探索音频处理和理解的相关技术，推动整个领域的发展。

而言，小米在音频推理方面的突破不仅仅是技术层面的成功，更在于通过新颖的训练方法和模型优化思想，为业界提供了值得借鉴的实验经验。随着研究的不断深入，相信在不久的将来，会有更多优秀的音频大模型问世，带来更为丰富的智能体验。

小米音频大模型成绩突破64%，跻身MMAU榜单前列

精品推荐

相关文章