🔥 毒舌 GitHub
← 返回论文榜
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu et al.
62.00/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 62.0 · 引用加成 +0.0 · 0 次引用

💡 本文系统研究长上下文视觉语言模型的继续预训练方案,通过消融实验得出长文档VQA、平衡长度分布、检索重数据配比等关键训练结论,仅用5B token预算即可将7B模型上下文扩展至128K并实现多任务泛化

#长上下文视觉语言模型#训练范式消融#数据配比研究#上下文外推#多任务泛化#long-context LVLM#training recipe ablation#data mixture design#context extrapolation#multi-task generalizatio

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性7.0 / 10

报告

一句话定性

这是一份扎实到近乎“boring”的实用型工程论文,用极低成本跑通了7B视觉语言模型128K上下文扩展的完整路径,但本质是“把社区没人系统做过的实验全做了”的经验总结,毫无突破性方法创新。

创新点/贡献

核心贡献是完整的系统性 ablation 结论:首次实证长文档VQA比OCR转录更适合长上下文预训练,证明平衡长度分布的数据比集中怼目标长度更有效,且纯长文档VQA不会损伤短上下文能力无需额外混短数据;最终推出的MMProLong仅用5B token就实现128K上下文训练,可零额外成本外推至256K/512K,覆盖多类下游任务,给社区提供了可复用的低成本训练范式。

问题与水分

novelty 完全站不住脚:所有结论都是基于现有Qwen2.5-VL-7B的调参,没提任何新的模型结构、训练目标或数据构造方法,纯靠堆 ablation 工作量;“泛化至256K/512K”是标题党,不过是零样本外推测了几个任务,连外推机制是位置编码特性还是数据分布作用都懒得分析,也好意思说“beyond training window”?“无需任务特定监督泛化”更是话术满分,测的任务全是社区成熟 benchmark ,换皮就叫新泛化?甚至“纯长文档VQA不损伤短上下文”的结论都没控制基础模型的短上下文基线,大概率是Qwen2.5-VL本身底子好,而非训练方法的功劳;此外仅验证7B模型,结论普适性存疑。

维度简评

novelty 7分:常规工程总结,无核心创新;rigor 8分:ablation设计完整,结论有数据支撑,无明显漏洞;significance 8分:低成本配方对工业界落地价值极高;clarity 9分:行文清晰,结论明确;reproducibility 7分:未公开核心训练配比与超参数,复现门槛不低。

一句总评

这是一份“优秀线附近、顶会最佳无缘”的实用型工作,没花里胡哨的新方法,但把长上下文VLM训练的可行路径摸得明明白白,给工业界省了大把试错成本,补上外推机制分析、更大模型验证和基线控制还能涨分。