港中文MMLab推出视觉推理新基准，DeepSeek与OpenAI谁更强？

时间：2025-03-01 04:50

小编：小世评选

随着人工智能领域的不断发展，视觉推理能力的评估愈加重要。在这一背景下，香港中文大学的MMLab团队推出了一个全新的基准测试——MME-COT，专门用于评估大规模语言模型（LMMs）在视觉推理方面的表现。这一基准的推出，旨在填补当前模型评估中的空白，尤其是在如OpenAI的GPT-4o和DeepSeek-R1等最新模型的视觉推理能力评估中。

Chain-of-Thought（CoT）推理的核心

OpenAI的GPTo1和DeepSeek-R1都依赖于链式思维（Chain-of-Thought，CoT）来展示其出色的推理能力。对于这些模型在视觉推理中的表现，需要明确如何对其进行细致的评估。MMLab的新基准正是为了解决这一问题而设计。与以往的LMM基准不同，MME-COT不仅关注最终答案的正确性，还深入探讨了推理的质量、鲁棒性和效率。

基于这一基准，各种先进的模型如Kimi k1.5、GPT-4o、QVQ等均进行了系统测试。研究者们通过将图片转换为描述性文本的方式，进一步评估了刚刚崭露头角的DeepSeek-R1和o3-mini模型的表现。

实验结果与模型评估

通过对模型的评测，MMLab团队得出了诸多重要

1. CoT质量：在CoT质量方面，Kimi k1.5表现最佳，其次是DeepSeek-R1，是o3-mini。具体Kimi k1.5在推理中展现了更高的逻辑准确性和幻觉防范能力。

2. CoT鲁棒性：在这方面，o3-mini表现优秀，超过Kimi k1.5和DeepSeek-R1。这一发现显示，某些模型在面对不同输入时表现更为一致和稳定。

3. CoT效率：关于推理效率的评估显示，o3-mini再次处于领先。这一结果反映了高效的推理能力能够帮助模型快速响应复杂的问题。

值得注意的是，尽管DeepSeek-R1在文本推理能力上表现优越，其在视觉推理中未能稳定超过其他模型。例如，DeepSeek-R1虽然在仅依靠图像的caption进行推理时，其精准度超过了真实查看图片的GPT-4o，但在CoT质量评估中却与GPT-4o存在微小差距。

创建评估的多维指标体系

MMLab在MME-COT基准中设计了三个重要的评估维度，此次评估不仅关注最终结果的准确性，还考量了推理过程中的不同属性。

1. CoT的质量: 研究者们通过引入两个可解释指标来量化推理步骤是否有效和准确。

2. CoT的鲁棒性: 此部分评估CoT在推理和感知任务中对模型能力的干扰程度。

3. CoT的效率: 利用两个关键指标来考查模型在推理过程中的效率和准确性。

视觉输入丰富度的重要性

与传统的文本推理基准相比，视觉输入的额外信息使得视觉推理问题的范围显著扩大。模型需要频繁查看图像以获取相关信息，这使得描述感兴趣区域成为思维链过程的一部分。因此，MMLab构建了一个涵盖多专业领域和常识场景的评估体系，包括众多面向实际应用的视觉推理任务。

未来展望

MMLab的这项研究不仅提供了一个系统化的LMM推理能力评估基准，更为未来的相关研究指明了方向。通过研究当前模型在推理质量、鲁棒性和计算效率等方面的不足，研究者们为后续工作奠定了基础，推动了更强大、可靠的视觉推理能力的发展。这些努力将促进人工智能在各种应用场景中更有效的利用视觉信息，为应对复杂推理任务提供支持。

随着技术的不断进步，视觉推理能力在机器学习和人工智能领域的重要性愈加凸显。MMLab的新基准MME-COT不仅为当前的视觉推理模型提供了更全面的评估，也为未来发展奠定了理论基础。从OpenAI的GPT-4o到DeepSeek-R1，模型的能力在不断演进，而MMLab的工作将加速这一进程，推动整个行业向更高水平迈进。

港中文MMLab推出视觉推理新基准，DeepSeek与OpenAI谁更强？

精品推荐

相关文章