Item: StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
Rating: 68.64
Author: GitHub Roast

Junming Lin, Zheng Fang, Chi Chen, Zihao Wan et al.

68.64/100

📘 能读

合格之作 · 有可取之处

内容分 62.0 · 引用加成 +6.6 · 107 次引用

💡 本文提出首个面向多模态大语言模型的流式视频理解基准StreamingBench，通过18类任务、900段视频与4500道人工时序QA评估模型三类核心能力，发现当前先进模型仍远低于人类水平

#流式视频理解#多模态大模型基准#实时交互评估#视频理解评测#MLLM能力短板#streaming video understa#MLLM benchmark#real-time interaction ev#video understanding asse#MLLM capability gap

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性7.0 / 10

🌶️ 辣评

这个语气还没生成 —— 去重新评测一次即可生成。