港中文MMLab推出视觉推理新基准,DeepSeek与OpenAI谁更强?
时间:2025-03-01 04:50
小编:小世评选
随着人工智能领域的不断发展,视觉推理能力的评估愈加重要。在这一背景下,香港中文大学的MMLab团队推出了一个全新的基准测试——MME-COT,专门用于评估大规模语言模型(LMMs)在视觉推理方面的表现。这一基准的推出,旨在填补当前模型评估中的空白,尤其是在如OpenAI的GPT-4o和DeepSeek-R1等最新模型的视觉推理能力评估中。
Chain-of-Thought(CoT)推理的核心
OpenAI的GPTo1和DeepSeek-R1都依赖于链式思维(Chain-of-Thought,CoT)来展示其出色的推理能力。对于这些模型在视觉推理中的表现,需要明确如何对其进行细致的评估。MMLab的新基准正是为了解决这一问题而设计。与以往的LMM基准不同,MME-COT不仅关注最终答案的正确性,还深入探讨了推理的质量、鲁棒性和效率。
基于这一基准,各种先进的模型如Kimi k1.5、GPT-4o、QVQ等均进行了系统测试。研究者们通过将图片转换为描述性文本的方式,进一步评估了刚刚崭露头角的DeepSeek-R1和o3-mini模型的表现。
实验结果与模型评估
通过对模型的评测,MMLab团队得出了诸多重要
1. CoT质量:在CoT质量方面,Kimi k1.5表现最佳,其次是DeepSeek-R1,是o3-mini。具体Kimi k1.5在推理中展现了更高的逻辑准确性和幻觉防范能力。
2. CoT鲁棒性:在这方面,o3-mini表现优秀,超过Kimi k1.5和DeepSeek-R1。这一发现显示,某些模型在面对不同输入时表现更为一致和稳定。
3. CoT效率:关于推理效率的评估显示,o3-mini再次处于领先。这一结果反映了高效的推理能力能够帮助模型快速响应复杂的问题。
值得注意的是,尽管DeepSeek-R1在文本推理能力上表现优越,其在视觉推理中未能稳定超过其他模型。例如,DeepSeek-R1虽然在仅依靠图像的caption进行推理时,其精准度超过了真实查看图片的GPT-4o,但在CoT质量评估中却与GPT-4o存在微小差距。
创建评估的多维指标体系
MMLab在MME-COT基准中设计了三个重要的评估维度,此次评估不仅关注最终结果的准确性,还考量了推理过程中的不同属性。
1. CoT的质量: 研究者们通过引入两个可解释指标来量化推理步骤是否有效和准确。
2. CoT的鲁棒性: 此部分评估CoT在推理和感知任务中对模型能力的干扰程度。
3. CoT的效率: 利用两个关键指标来考查模型在推理过程中的效率和准确性。
视觉输入丰富度的重要性
与传统的文本推理基准相比,视觉输入的额外信息使得视觉推理问题的范围显著扩大。模型需要频繁查看图像以获取相关信息,这使得描述感兴趣区域成为思维链过程的一部分。因此,MMLab构建了一个涵盖多专业领域和常识场景的评估体系,包括众多面向实际应用的视觉推理任务。
未来展望
MMLab的这项研究不仅提供了一个系统化的LMM推理能力评估基准,更为未来的相关研究指明了方向。通过研究当前模型在推理质量、鲁棒性和计算效率等方面的不足,研究者们为后续工作奠定了基础,推动了更强大、可靠的视觉推理能力的发展。这些努力将促进人工智能在各种应用场景中更有效的利用视觉信息,为应对复杂推理任务提供支持。
随着技术的不断进步,视觉推理能力在机器学习和人工智能领域的重要性愈加凸显。MMLab的新基准MME-COT不仅为当前的视觉推理模型提供了更全面的评估,也为未来发展奠定了理论基础。从OpenAI的GPT-4o到DeepSeek-R1,模型的能力在不断演进,而MMLab的工作将加速这一进程,推动整个行业向更高水平迈进。