Item: MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
Rating: 62.4
Author: GitHub Roast

← 返回论文榜

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang et al.

62.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 62.4 · 引用加成 +0.0 · 暂无引用数据

💡 MMLongBench是首个面向长上下文视觉语言模型的系统性评测基准，覆盖5类任务、13331个样本及8K-128K五档输入长度，通过对46个模型的评测揭示了当前长上下文多模态模型的能力短板与性能关联规律

#长上下文多模态评测#领域基准#多模态大模型#视觉语言模型#能力诊断#long-context multimodal #VLM evaluation#multimodal LLM#capability diagnosis#vision-language model

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

评审报告

一句话定性

这是一篇填补长上下文视觉语言模型（LCVLM）评测领域空白的基准构建工作，为后续相关模型研发提供了扎实的评估基础设施。

创新点与核心贡献

首发覆盖多类长上下文VLM任务的综合性基准，包含13331条跨5类下游任务（含Visual RAG、Many-Shot ICL等前沿方向）、自然/合成多类型图像的样本，解决了此前LCVLM评测任务单一、场景覆盖不足的痛点；
设计跨模态分词方案实现8K-128K token的标准化输入长度控制，统一了不同模型、不同任务下的长上下文评测对齐标准；
对46个闭源/开源LCVLM的全面评测得出3条高价值行业结论，比如单任务表现无法代表整体长上下文能力、模型通用推理能力与长上下文表现正相关等，为模型优化提供了明确方向。

问题与水分

基准的任务场景仍偏通用，未覆盖长文档解析、长视频理解等垂直领域的长上下文VLM核心需求；评测未控制不同模型的训练数据中长上下文样本的占比，结论的归因性存在一定折扣；未对不同输入长度下的任务难度做校准，长度增长带来的任务难度提升可能混淆模型真实的长上下文能力。

维度简评

创新性7分：作为首个该领域综合性基准，填补了行业空白，任务设计的前沿性突出；严谨性8分：长度控制、多模型评测的流程规范，结论均有数据支撑；重要性9分：直击LCVLM发展缺乏统一评测标准的核心痛点，对学术研究和产业落地的参考价值极高；清晰度8分：论文结构清晰，方法描述通俗易懂；可复现性7分：基准已开源，但部分评测细节（如长度采样策略、难度校准方法）披露不够充分。

一句总评

整体是一份质量扎实的领域基础设施类工作，虽在场景细分、归因控制上有优化空间，但已为长上下文视觉语言模型的研究提供了不可或缺的评估工具，对领域发展的推动作用显著。