Item: MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
Rating: 62.4
Author: GitHub Roast

← 返回论文榜

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang et al.

62.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 62.4 · 引用加成 +0.0 · 暂无引用数据

💡 MMLongBench是首个面向长上下文视觉语言模型的系统性评测基准，覆盖5类任务、13331个样本及8K-128K五档输入长度，通过对46个模型的评测揭示了当前长上下文多模态模型的能力短板与性能关联规律

#长上下文多模态评测#领域基准#多模态大模型#视觉语言模型#能力诊断#long-context multimodal #VLM evaluation#multimodal LLM#capability diagnosis#vision-language model

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这篇工作算是给火得冒烟的长上下文多模态大模型领域，递了把迟来的统一尺子——之前各家吹自己模型能处理128K多模态上下文，连个正规考场都没有，它直接把考卷印出来了。

创新点/贡献

作为首个覆盖多类长上下文多模态任务的系统性基准，跳出了此前单任务、短上下文评测的碎片化局限，首创跨模态token化的标准化长度控制方案，给8K到128K的输入长度定了统一标尺；覆盖46个闭源开源模型的评测拿出了实打实的数据，得出“单任务成绩不能代表整体长上下文能力”“推理能力与长上下文性能正相关”等对领域有参考价值的结论。

问题与水分

说白了benchmark本质是“搭台子”的活，创新性上限摆在那，别指望它有方法层面的颠覆性突破。13331个样本摊到5类任务、多类型图像里，每类样本量刚够看，摘要连图像分布是否平衡、数据集和代码是否公开都没提，要是藏数据不公开，直接成了“自嗨型基准”，参考价值砍半。所谓“推理能力与长上下文正相关”也只是相关性分析，连消融实验都没做，根本证明不了是推理能力带来的长上下文提升，还是强模型本身上下文处理能力就更强，结论含金量要打折扣。

维度简评

创新性7分：确实是领域首个系统性长上下文多模态基准，不是换皮灌水，但benchmark类工作天然难有颠覆性创新；严谨性8分：实验覆盖的模型、任务、长度维度全，结论有数据支撑，但样本分布细节、消融实验缺失拉低分数；意义9分：精准填补领域空白，是后续长上下文多模态模型研发的刚需工具，潜力极大；清晰度8分：摘要逻辑通顺、核心贡献明确，但关键细节披露不足；可复现性7分：若公开数据代码则能达标，但摘要未明确公开计划，扣分。

一句总评

整体是篇扎实的领域工具型工作，虽无颠覆性创新，但胜在解决了真问题，要是公开数据、补全样本说明、加因果性消融实验，绝对是长上下文多模态领域的必引基准，现在扣的分全是“预期管理”不到位和benchmark类工作的天然上限。