Item: Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Rating: 62
Author: GitHub Roast

← 返回论文榜

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu et al.

62.00/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 62.0 · 引用加成 +0.0 · 0 次引用

💡 本文系统研究长上下文视觉语言模型的继续预训练方案，通过消融实验得出长文档VQA、平衡长度分布、检索重数据配比等关键训练结论，仅用5B token预算即可将7B模型上下文扩展至128K并实现多任务泛化

#长上下文视觉语言模型#训练范式消融#数据配比研究#上下文外推#多任务泛化#long-context LVLM#training recipe ablation#data mixture design#context extrapolation#multi-task generalizatio

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

报告

一句话定性

这是一份扎实到近乎“boring”的实用型工程论文，用极低成本跑通了7B视觉语言模型128K上下文扩展的完整路径，但本质是“把社区没人系统做过的实验全做了”的经验总结，毫无突破性方法创新。

创新点/贡献

核心贡献是完整的系统性 ablation 结论：首次实证长文档VQA比OCR转录更适合长上下文预训练，证明平衡长度分布的数据比集中怼目标长度更有效，且纯长文档VQA不会损伤短上下文能力无需额外混短数据；最终推出的MMProLong仅用5B token就实现128K上下文训练，可零额外成本外推至256K/512K，覆盖多类下游任务，给社区提供了可复用的低成本训练范式。

问题与水分

novelty 完全站不住脚：所有结论都是基于现有Qwen2.5-VL-7B的调参，没提任何新的模型结构、训练目标或数据构造方法，纯靠堆 ablation 工作量；“泛化至256K/512K”是标题党，不过是零样本外推测了几个任务，连外推机制是位置编码特性还是数据分布作用都懒得分析，也好意思说“beyond training window”？“无需任务特定监督泛化”更是话术满分，测的任务全是社区成熟 benchmark ，换皮就叫新泛化？甚至“纯长文档VQA不损伤短上下文”的结论都没控制基础模型的短上下文基线，大概率是Qwen2.5-VL本身底子好，而非训练方法的功劳；此外仅验证7B模型，结论普适性存疑。

维度简评

novelty 7分：常规工程总结，无核心创新；rigor 8分：ablation设计完整，结论有数据支撑，无明显漏洞；significance 8分：低成本配方对工业界落地价值极高；clarity 9分：行文清晰，结论明确；reproducibility 7分：未公开核心训练配比与超参数，复现门槛不低。

一句总评

这是一份“优秀线附近、顶会最佳无缘”的实用型工作，没花里胡哨的新方法，但把长上下文VLM训练的可行路径摸得明明白白，给工业界省了大把试错成本，补上外推机制分析、更大模型验证和基线控制还能涨分。