Item: MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Rating: 78.81
Author: GitHub Roast

Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin et al.

78.81/100

📘 能读

合格之作 · 有可取之处

内容分 68.0 · 引用加成 +10.8 · 1596 次引用

💡 本文提出首个面向多模态大语言模型（MLLM）的综合评测基准MME，覆盖14项感知与认知子任务，通过人工设计指令对避免数据泄露，统一评测流程公平对比30个先进MLLM，揭示现有模型不足与优化方向，已公开数据集供社区使用

#MLLM考卷#多模态摸底考#防泄漏评测#感知认知双测#大模型标尺#MLLM Exam#Multimodal Benchmark#Leak-Proof Evaluation#Perception-Cognition Tes#LLM Ruler

维度评分

创新性8.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌶️ 辣评

这个语气还没生成 —— 去重新评测一次即可生成。