Item: MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Rating: 78.81
Author: GitHub Roast

← 返回论文榜

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin et al.

78.81/100

📘 能读

合格之作 · 有可取之处

内容分 68.0 · 引用加成 +10.8 · 1596 次引用

💡 本文提出首个面向多模态大语言模型（MLLM）的综合评测基准MME，覆盖14项感知与认知子任务，通过人工设计指令对避免数据泄露，统一评测流程公平对比30个先进MLLM，揭示现有模型不足与优化方向，已公开数据集供社区使用

#MLLM考卷#多模态摸底考#防泄漏评测#感知认知双测#大模型标尺#MLLM Exam#Multimodal Benchmark#Leak-Proof Evaluation#Perception-Cognition Tes#LLM Ruler

去评测另一篇 →

维度评分

创新性8.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

一句话定性

这篇工作是多模态大语言模型评测领域的开创性基准研究，填补了早期MLLM缺乏综合能力评测工具的空白，是领域发展历程中的里程碑式公共基础设施工作。

创新点与贡献

首次提出专门针对MLLM的综合评测基准MME，同时覆盖感知与认知两类核心能力，共14个细分子任务，构建了完整的MLLM能力评估框架；
采用人工设计指令-答案对的方式避免公开数据集导致的数据泄露问题，统一简洁的指令设计消除了prompt engineering的干扰，保证了不同模型评测的公平性；
对30个当时先进的MLLM进行了全面评测，直观揭示了现有模型的性能短板与后续优化方向，为社区提供了统一的评测标尺。

问题与水分

作为首个该方向的基准工作，任务覆盖与样本量后续有较大扩展空间，未涉及多轮交互、复杂推理等进阶能力评测，且仅公开了评测数据集，未开源完整的自动化评测代码，复现与扩展需研究者自行实现部分流程。

维度简评

创新性突出，是MLLM评测方向的开拓者，首次系统性构建了针对该领域的综合评测体系；严谨性扎实，实验覆盖范围广，人工标注保证评测可靠性，结论有充分数据支撑；意义极高，该基准成为后续MLLM研发与评测的标配工具之一，直接推动了领域技术迭代；写作清晰流畅，可读性强；可复现性良好，公开完整数据集与评测流程，仅代码未完全开源略有不足。

总评

这是一篇质量极高的领域基础工具类工作，虽未提出突破性理论方法，但通过构建首个MLLM综合评测基准为整个多模态大模型领域提供了关键的公共基础设施，实用价值与领域贡献远超多数同类型工作，是MLLM发展历程中具有标志性意义的代表性工作。