🔥 毒舌 GitHub
← 返回论文榜
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin et al.
78.81/100
📘 能读
合格之作 · 有可取之处
内容分 68.0 · 引用加成 +10.8 · 1596 次引用

💡 本文提出首个面向多模态大语言模型(MLLM)的综合评测基准MME,覆盖14项感知与认知子任务,通过人工设计指令对避免数据泄露,统一评测流程公平对比30个先进MLLM,揭示现有模型不足与优化方向,已公开数据集供社区使用

#MLLM考卷#多模态摸底考#防泄漏评测#感知认知双测#大模型标尺#MLLM Exam#Multimodal Benchmark#Leak-Proof Evaluation#Perception-Cognition Tes#LLM Ruler

维度评分

创新性8.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

一句话定性

这篇工作是多模态大语言模型评测领域的开创性基准研究,填补了早期MLLM缺乏综合能力评测工具的空白,是领域发展历程中的里程碑式公共基础设施工作。

创新点与贡献

  1. 首次提出专门针对MLLM的综合评测基准MME,同时覆盖感知与认知两类核心能力,共14个细分子任务,构建了完整的MLLM能力评估框架;
  2. 采用人工设计指令-答案对的方式避免公开数据集导致的数据泄露问题,统一简洁的指令设计消除了prompt engineering的干扰,保证了不同模型评测的公平性;
  3. 对30个当时先进的MLLM进行了全面评测,直观揭示了现有模型的性能短板与后续优化方向,为社区提供了统一的评测标尺。

问题与水分

作为首个该方向的基准工作,任务覆盖与样本量后续有较大扩展空间,未涉及多轮交互、复杂推理等进阶能力评测,且仅公开了评测数据集,未开源完整的自动化评测代码,复现与扩展需研究者自行实现部分流程。

维度简评

创新性突出,是MLLM评测方向的开拓者,首次系统性构建了针对该领域的综合评测体系;严谨性扎实,实验覆盖范围广,人工标注保证评测可靠性,结论有充分数据支撑;意义极高,该基准成为后续MLLM研发与评测的标配工具之一,直接推动了领域技术迭代;写作清晰流畅,可读性强;可复现性良好,公开完整数据集与评测流程,仅代码未完全开源略有不足。

总评

这是一篇质量极高的领域基础工具类工作,虽未提出突破性理论方法,但通过构建首个MLLM综合评测基准为整个多模态大模型领域提供了关键的公共基础设施,实用价值与领域贡献远超多数同类型工作,是MLLM发展历程中具有标志性意义的代表性工作。