💡 本文系统研究长上下文视觉语言模型的继续预训练方案,通过消融实验得出长文档VQA、平衡长度分布、检索重数据配比等关键训练结论,仅用5B token预算即可将7B模型上下文扩展至128K并实现多任务泛化
维度评分
报告
一句话定性
这是一份扎实到近乎“boring”的实用型工程论文,用极低成本跑通了7B视觉语言模型128K上下文扩展的完整路径,但本质是“把社区没人系统做过的实验全做了”的经验总结,毫无突破性方法创新。
创新点/贡献
核心贡献是完整的系统性 ablation 结论:首次实证长文档VQA比OCR转录更适合长上下文预训练,证明平衡长度分布的数据比集中怼目标长度更有效,且纯长文档VQA不会损伤短上下文能力无需额外混短数据;最终推出的MMProLong仅用5B token就实现128K上下文训练,可零额外成本外推至256K/512K,覆盖多类下游任务,给社区提供了可复用的低成本训练范式。
问题与水分
novelty 完全站不住脚:所有结论都是基于现有Qwen2.5-VL-7B的调参,没提任何新的模型结构、训练目标或数据构造方法,纯靠堆 ablation 工作量;“泛化至256K/512K”是标题党,不过是零样本外推测了几个任务,连外推机制是位置编码特性还是数据分布作用都懒得分析,也好意思说“beyond training window”?“无需任务特定监督泛化”更是话术满分,测的任务全是社区成熟 benchmark ,换皮就叫新泛化?甚至“纯长文档VQA不损伤短上下文”的结论都没控制基础模型的短上下文基线,大概率是Qwen2.5-VL本身底子好,而非训练方法的功劳;此外仅验证7B模型,结论普适性存疑。
维度简评
novelty 7分:常规工程总结,无核心创新;rigor 8分:ablation设计完整,结论有数据支撑,无明显漏洞;significance 8分:低成本配方对工业界落地价值极高;clarity 9分:行文清晰,结论明确;reproducibility 7分:未公开核心训练配比与超参数,复现门槛不低。
一句总评
这是一份“优秀线附近、顶会最佳无缘”的实用型工作,没花里胡哨的新方法,但把长上下文VLM训练的可行路径摸得明明白白,给工业界省了大把试错成本,补上外推机制分析、更大模型验证和基线控制还能涨分。