🔥 毒舌 GitHub
← 返回论文榜
StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
Junming Lin, Zheng Fang, Chi Chen, Zihao Wan et al.
68.64/100
📘 能读
合格之作 · 有可取之处
内容分 62.0 · 引用加成 +6.6 · 107 次引用

💡 本文提出首个面向多模态大语言模型的流式视频理解基准StreamingBench,通过18类任务、900段视频与4500道人工时序QA评估模型三类核心能力,发现当前先进模型仍远低于人类水平

#流式视频理解#多模态大模型基准#实时交互评估#视频理解评测#MLLM能力短板#streaming video understa#MLLM benchmark#real-time interaction ev#video understanding asse#MLLM capability gap

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性7.0 / 10

这是一篇精准切中多模态大模型演进痛点、填补流式视频理解评估空白的优质基准工作,整体质量过硬,对领域基础研究有明确价值。

核心贡献与亮点

本文首次构建系统性的流式视频理解评估体系StreamingBench,明确实时视觉感知、全源信息理解、长上下文关联三大核心评估维度,设计18个贴近真实交互场景的任务,包含900段视频与4500道人工标注时序QA对,通过不同时间点推送问题模拟真实流式输入,相当于给流式视频理解领域发了第一把统一的标尺;覆盖13款主流开源与闭源MLLM测试并引入人类基线,实证当前模型在该场景下的显著能力短板,为后续研究提供统一评估标准。

不足与水分

无明显灌水成分,仅存在摘要未明确说明数据集与评估代码开源计划、部分任务场景覆盖度可进一步拓展的微小不足。

维度简评

创新性上作为首个针对流式视频理解细分场景的全面基准,填补领域长期评估空白;严谨性上任务设计、标注流程、实验对照符合基准类工作最高标准;意义层面直击真实交互核心需求,对推动MLLM从离线理解向实时交互落地有重要引导价值;表达清晰无歧义;可复现性依赖后续开源资源公开情况。

总评

整体是质量扎实的领域基础性工作,为流式多模态交互研究提供了关键的评估基础设施,让后续研究不用再“盲人摸象”式评估流式能力,对缩小MLLM与人类实时视频理解能力差距有明确推动作用。