🔥 毒舌 GitHub
← 返回论文榜
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin et al.
78.81/100
📘 能读
合格之作 · 有可取之处
内容分 68.0 · 引用加成 +10.8 · 1596 次引用

💡 本文提出首个面向多模态大语言模型(MLLM)的综合评测基准MME,覆盖14项感知与认知子任务,通过人工设计指令对避免数据泄露,统一评测流程公平对比30个先进MLLM,揭示现有模型不足与优化方向,已公开数据集供社区使用

#MLLM考卷#多模态摸底考#防泄漏评测#感知认知双测#大模型标尺#MLLM Exam#Multimodal Benchmark#Leak-Proof Evaluation#Perception-Cognition Tes#LLM Ruler

维度评分

创新性8.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。