Item: TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
Rating: 55.37
Author: GitHub Roast

← 返回论文榜

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu et al.

55.37/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 53.2 · 引用加成 +2.2 · 7 次引用

💡 本文提出TimeSearch-R，将长视频时序搜索与文本-视频推理过程交错融合，通过改进GRPO加入同策略自验证模块解决RL训练中的搜索不完整问题，在多个长视频理解基准上取得SOTA提升。

#长视频理解#时序搜索#强化学习#自验证#视频推理#long-video understanding#temporal search#reinforcement learning#self-verification#video reasoning

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性6.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇瞄准长视频时序搜索痛点的实用向增量工作，用RL替代手工搜索策略并引入自验证缓解推理不完整问题，解决了真问题但创新性远没到“惊艳”的程度。

创新点/贡献

首次将时序搜索与文本-视频推理过程交错融合，用端到端RL替代传统手工设计的搜索流程，实现了搜索策略的自动优化；
针对GRPO在视频推理中易出现的搜索不完整问题，提出同策略自验证的GRPO-CSV改进，无需额外模型即可提升搜索内容完备性；
构建了适配SFT冷启动和RL训练的专属数据集，通过过滤弱时序依赖样本提升任务难度，强化模型时序搜索能力。

问题与水分

别被摘要里的“new state-of-the-art”唬住：核心创新不过是把现有GRPO套了视频搜索的壳，加了个“自家模型给自家搜索结果打分”的自验证小花招， novelty 想冲高分纯属想多了。实验部分水分也不小：连最基础的消融实验都舍不得放，自验证模块到底贡献了多大增益全凭一张嘴，数据集过滤标准藏得比宝贝还严，和现有时序搜索专用方法的对照也严重不足，SOTA提升到底来自搜索策略改进还是基模本身的增益都说不清，不知道的还以为做了什么不可复现的惊天工作。

维度简评

创新性属于“现有技术的有效组合+小改进”，没有范式级突破，得分中等；严谨性上虽覆盖了多个主流基准，但关键消融和细节披露不足，结论支撑力度偏弱；意义上切中了长视频理解的核心痛点，方法有实际落地价值，开源也利于社区跟进；清晰度上摘要逻辑通顺，问题表述明确；可复现性上有公开代码，但关键训练和数据集细节缺失，复现门槛不低。

一句总评

整体是篇合格的应用导向工作，比大部分灌水换皮的 arXiv 水文强，但创新保守、实验披露不足的硬伤也让它离顶会硬核工作还差得远，属于“有用但不够硬”的常规研究。