🔥 毒舌 GitHub
← 返回论文榜
VideoRoPE: What Makes for Good Video Rotary Position Embedding?
Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong et al.
63.20/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 63.2 · 引用加成 +0.0 · 暂无引用数据

💡 本文系统梳理视频RoPE适配核心特性,提出3D结构的VideoRoPE,在多类视频理解任务上验证有效性

#视频位置编码#RoPE适配#长视频理解#3D位置编码#视频鲁棒性#video positional encodin#RoPE adaptation#long-video understanding#3D positional embedding#video robustness

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性8.0 / 10

一句话定性:这是一篇针对视频大模型位置编码痛点的扎实分析型工作,把之前乱改RoPE适配视频的零散经验系统化了,没有过度宣称,实用性拉满。

创新点/贡献:首次系统归纳视频RoPE适配的四个关键特性,填补该方向空白;提出带周期干扰的V-NIAH-D测试基准,可检验位置编码对时间重复模式的鲁棒性;3D VideoRoPE通过低频时间分配、对角空间布局、可调时间间距三个务实改进,同时兼顾时空关系保持和抗干扰能力,在长视频检索、视频理解、幻觉 mitigation 等多个任务上一致优于 prior work。

问题与水分:四个“关键特性”本质是调参调出的经验总结,无形式化定理支撑,理论薄弱程度堪比薄饼;号称适配长视频,实验用到的视频最长不超10分钟,“长”是相对15秒短视频而言?自研V-NIAH-D未和现有鲁棒性测试横向对比,自说自话味儿重;代码仅承诺开源,尚未落地,可复现性打骨折。

维度简评:创新性7分(系统性改进,非换皮也非开创);严谨性8分(实验充分、新基准有说服力,理论缺位扣分);意义8分(解决实际痛点,参考价值高);清晰度9分(逻辑流畅无晦涩);可复现性8分(方法明确,待代码公开可满分)。

总评:比90%“改位置编码刷单任务”的灌水文强得多,补全理论推导和长视频验证后顶会稳了。