🔥 毒舌 GitHub
← 返回论文榜
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu et al.
62.00/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 62.0 · 引用加成 +0.0 · 0 次引用

💡 本文系统研究长上下文视觉语言模型的继续预训练方案,通过消融实验得出长文档VQA、平衡长度分布、检索重数据配比等关键训练结论,仅用5B token预算即可将7B模型上下文扩展至128K并实现多任务泛化

#长上下文视觉语言模型#训练范式消融#数据配比研究#上下文外推#多任务泛化#long-context LVLM#training recipe ablation#data mixture design#context extrapolation#multi-task generalizatio

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性7.0 / 10

这是一篇实用性拉满的长上下文视觉语言模型训练范式系统性研究,用扎实的消融实验填补了该领域训练recipe的长期空白。

核心贡献与亮点

1)首次系统探索长上下文LVLM继续预训练的核心要素(数据配比、序列长度分布、长短上下文平衡),得出「平衡长度分布优于目标长度聚焦」「检索重数据配比最优」「纯长文档VQA可保留短上下文能力」3个高实用价值的训练结论,改变了此前长上下文训练依赖经验试错的现状; 2)提出仅需5B token预算即可将7B LVLM上下文从32K扩展至128K的高效方案MMProLong,且无需额外训练即可外推至256K、512K上下文,在长文档VQA、多模态needle检索、长视频理解等任务上实现零样本泛化,直接降低了长上下文LVLM的落地门槛。

局限与水分

属于工程导向的系统性研究,未对训练现象(如外推能力来源、长度分布优势的成因)做理论解释,且未明确公开训练代码与数据集构成,可复现性与落地性稍受影响。

维度简评

创新性上,针对未被充分探索的场景给出系统性实用结论,非 trivial 增量;严谨性上,消融控制变量合理,多任务验证充分,结论均有实验支撑;意义上,直接解决工业界训练recipe缺失的痛点,实用价值突出;清晰度上,逻辑通顺、表达精准;可复现性上,核心方法与基座模型公开,但代码与数据集未明确释放,略影响复现效率。

总评

是当前长上下文多模态模型训练领域少有的扎实工程研究成果,为后续工作提供了可靠基准与实用参考,对工业界落地有直接指导价值。