Item: StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
Rating: 68.64
Author: GitHub Roast

← 返回论文榜

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

Junming Lin, Zheng Fang, Chi Chen, Zihao Wan et al.

68.64/100

📘 能读

合格之作 · 有可取之处

内容分 62.0 · 引用加成 +6.6 · 107 次引用

💡 本文提出首个面向多模态大语言模型的流式视频理解基准StreamingBench，通过18类任务、900段视频与4500道人工时序QA评估模型三类核心能力，发现当前先进模型仍远低于人类水平

#流式视频理解#多模态大模型基准#实时交互评估#视频理解评测#MLLM能力短板#streaming video understa#MLLM benchmark#real-time interaction ev#video understanding asse#MLLM capability gap

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性7.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

这是一篇精准切中多模态大模型演进痛点、填补流式视频理解评估空白的优质基准工作，整体质量过硬，对领域基础研究有明确价值。

核心贡献与亮点

本文首次构建系统性的流式视频理解评估体系StreamingBench，明确实时视觉感知、全源信息理解、长上下文关联三大核心评估维度，设计18个贴近真实交互场景的任务，包含900段视频与4500道人工标注时序QA对，通过不同时间点推送问题模拟真实流式输入，相当于给流式视频理解领域发了第一把统一的标尺；覆盖13款主流开源与闭源MLLM测试并引入人类基线，实证当前模型在该场景下的显著能力短板，为后续研究提供统一评估标准。

不足与水分

无明显灌水成分，仅存在摘要未明确说明数据集与评估代码开源计划、部分任务场景覆盖度可进一步拓展的微小不足。

维度简评

创新性上作为首个针对流式视频理解细分场景的全面基准，填补领域长期评估空白；严谨性上任务设计、标注流程、实验对照符合基准类工作最高标准；意义层面直击真实交互核心需求，对推动MLLM从离线理解向实时交互落地有重要引导价值；表达清晰无歧义；可复现性依赖后续开源资源公开情况。

总评

整体是质量扎实的领域基础性工作，为流式多模态交互研究提供了关键的评估基础设施，让后续研究不用再“盲人摸象”式评估流式能力，对缩小MLLM与人类实时视频理解能力差距有明确推动作用。