Item: Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
Rating: 62
Author: GitHub Roast

← 返回论文榜

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu et al.

62.00/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 62.0 · 引用加成 +0.0 · 0 次引用

💡 本文系统研究长上下文视觉语言模型的继续预训练方案，通过消融实验得出长文档VQA、平衡长度分布、检索重数据配比等关键训练结论，仅用5B token预算即可将7B模型上下文扩展至128K并实现多任务泛化

#长上下文视觉语言模型#训练范式消融#数据配比研究#上下文外推#多任务泛化#long-context LVLM#training recipe ablation#data mixture design#context extrapolation#multi-task generalizatio

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性7.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

这是一篇实用性拉满的长上下文视觉语言模型训练范式系统性研究，用扎实的消融实验填补了该领域训练recipe的长期空白。

核心贡献与亮点

1）首次系统探索长上下文LVLM继续预训练的核心要素（数据配比、序列长度分布、长短上下文平衡），得出「平衡长度分布优于目标长度聚焦」「检索重数据配比最优」「纯长文档VQA可保留短上下文能力」3个高实用价值的训练结论，改变了此前长上下文训练依赖经验试错的现状； 2）提出仅需5B token预算即可将7B LVLM上下文从32K扩展至128K的高效方案MMProLong，且无需额外训练即可外推至256K、512K上下文，在长文档VQA、多模态needle检索、长视频理解等任务上实现零样本泛化，直接降低了长上下文LVLM的落地门槛。

局限与水分

属于工程导向的系统性研究，未对训练现象（如外推能力来源、长度分布优势的成因）做理论解释，且未明确公开训练代码与数据集构成，可复现性与落地性稍受影响。

维度简评

创新性上，针对未被充分探索的场景给出系统性实用结论，非 trivial 增量；严谨性上，消融控制变量合理，多任务验证充分，结论均有实验支撑；意义上，直接解决工业界训练recipe缺失的痛点，实用价值突出；清晰度上，逻辑通顺、表达精准；可复现性上，核心方法与基座模型公开，但代码与数据集未明确释放，略影响复现效率。

总评

是当前长上下文多模态模型训练领域少有的扎实工程研究成果，为后续工作提供了可靠基准与实用参考，对工业界落地有直接指导价值。