💡 本文提出TimeSearch-R,将长视频时序搜索与文本-视频推理过程交错融合,通过改进GRPO加入同策略自验证模块解决RL训练中的搜索不完整问题,在多个长视频理解基准上取得SOTA提升。
维度评分
评审报告
一句话定性
这是一篇针对长视频时序搜索任务的务实型工程工作,通过强化学习与自验证机制优化搜索推理流程,在多个公开基准上取得了有竞争力的性能提升,完成度与实用性表现突出。
创新点与贡献
核心亮点有三:一是首次将传统手工设计的时序搜索流程重构为文本-视频交替的端到端推理过程,打破了既有搜索范式的局限,为任务优化提供了新思路;二是提出GRPO-CSV算法,通过同策略自验证机制有效解决了原始GRPO在视频推理中存在的搜索不完整、逻辑不一致问题,提升了推理可靠性;三是构建了适配SFT冷启动与RL训练的专用数据集,通过过滤弱时序依赖样本提升任务难度与模型泛化能力,为后续研究提供了可用的数据资源。
问题与水分
工作的边际创新性仍有提升空间,RL框架的适配设计相对直接,自验证机制的改进幅度有限;实验对比的基线覆盖不够全面,未与近年同领域的前沿时序搜索方法做充分消融,也未对搜索效率、推理时长的实际提升做量化分析,仅关注准确率指标,实用性验证存在不足。
维度简评
novelty维度6分:任务与RL结合的思路有一定新意,但核心框架设计的创新性不算突出;rigor维度6分:实验设置基本规范,但消融实验不足,对算法失效场景的分析缺失,实验严谨性有待提升;significance维度7分:在LongVideoBench等多个基准上取得了明确的SOTA提升,对长视频时序搜索任务的后续研究有不错的参考价值;clarity维度8分:论文表述清晰流畅,方法流程、实验设置说明完整,可读性较好;reproducibility维度7分:开源了代码与专用数据集,实验细节披露充分,复现难度较低。
一句总评
这是一篇完成度较高、性能表现扎实的工程导向型工作,虽理论创新性不算顶尖,但为长视频时序搜索任务的端到优化提供了可行的技术路径,在对应细分领域有较高的实用价值。