Item: TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
Rating: 55.37
Author: GitHub Roast

← 返回论文榜

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu et al.

55.37/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 53.2 · 引用加成 +2.2 · 7 次引用

💡 本文提出TimeSearch-R，将长视频时序搜索与文本-视频推理过程交错融合，通过改进GRPO加入同策略自验证模块解决RL训练中的搜索不完整问题，在多个长视频理解基准上取得SOTA提升。

#长视频理解#时序搜索#强化学习#自验证#视频推理#long-video understanding#temporal search#reinforcement learning#self-verification#video reasoning

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性6.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

评审报告

一句话定性

这是一篇针对长视频时序搜索任务的务实型工程工作，通过强化学习与自验证机制优化搜索推理流程，在多个公开基准上取得了有竞争力的性能提升，完成度与实用性表现突出。

创新点与贡献

核心亮点有三：一是首次将传统手工设计的时序搜索流程重构为文本-视频交替的端到端推理过程，打破了既有搜索范式的局限，为任务优化提供了新思路；二是提出GRPO-CSV算法，通过同策略自验证机制有效解决了原始GRPO在视频推理中存在的搜索不完整、逻辑不一致问题，提升了推理可靠性；三是构建了适配SFT冷启动与RL训练的专用数据集，通过过滤弱时序依赖样本提升任务难度与模型泛化能力，为后续研究提供了可用的数据资源。

问题与水分

工作的边际创新性仍有提升空间，RL框架的适配设计相对直接，自验证机制的改进幅度有限；实验对比的基线覆盖不够全面，未与近年同领域的前沿时序搜索方法做充分消融，也未对搜索效率、推理时长的实际提升做量化分析，仅关注准确率指标，实用性验证存在不足。

维度简评

novelty维度6分：任务与RL结合的思路有一定新意，但核心框架设计的创新性不算突出；rigor维度6分：实验设置基本规范，但消融实验不足，对算法失效场景的分析缺失，实验严谨性有待提升；significance维度7分：在LongVideoBench等多个基准上取得了明确的SOTA提升，对长视频时序搜索任务的后续研究有不错的参考价值；clarity维度8分：论文表述清晰流畅，方法流程、实验设置说明完整，可读性较好；reproducibility维度7分：开源了代码与专用数据集，实验细节披露充分，复现难度较低。

一句总评

这是一篇完成度较高、性能表现扎实的工程导向型工作，虽理论创新性不算顶尖，但为长视频时序搜索任务的端到优化提供了可行的技术路径，在对应细分领域有较高的实用价值。