Item: ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
Rating: 45.6
Author: GitHub Roast

← 返回论文榜

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu et al.

45.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 45.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出基于离散表征的自回归大 multimodal 模型ARM，通过多目标监督视觉分词器与强化学习统一实现图像理解、生成、编辑，意外发现RL可诱导跨任务协同效应

#自回归多模态#离散视觉表征#RL跨任务协同#统一感知生成编辑#Autoregressive Multimoda#Discrete Visual Token#RL Cross-task Synergy#Unified Perception-Gener

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性4.0 / 10

意义6.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

一句话定性

这是一份完成度极高的工程型优质工作，为统一多模态自回归模型的发展提供了极具落地价值的实践参考。

创新点与贡献

核心亮点十分突出：一是提出多目标监督的离散语义视觉分词器，同时锚定语义判别性、语言对齐与重建保真度三大目标，首次为图像理解、生成、编辑三类任务搭建了共享紧凑隐空间，解决了多模态任务表征不统一的痛点；二是将7B量级自回归模型成功拓展到多模态全链路任务，验证了next-token预测框架在视觉领域的 scalability，打破了自回归模型仅擅长文本生成的固有认知；三是意外挖掘出强化学习的跨任务协同增益——RL优化生成、编辑目标的同时反向提升模型理解能力，这一发现为多模态对齐提供了全新的研究思路。

问题与水分

工作的不足主要体现在：离散分词器的重建精度与当前主流连续表征方案仍有差距，限制了高保真生成的上限；强化学习部分的消融实验不够充分，未明确不同reward项对跨任务协同的贡献权重；实验覆盖的任务场景相对聚焦，未拓展至更多视觉下游任务验证框架泛化性，但这些都不影响核心结论的可靠性。

维度简评

各维度表现与固定分数高度匹配：novelty得5分，属于现有自回归多模态范式的系统性整合与优化，未提出颠覆性新范式，但落地实用性极强；rigor得4分，核心实验结论可靠，但消融实验深度不足，部分结论的因果支撑可更扎实；significance得6分，验证了统一离散表征+自回归+RL对齐的技术路线可行性，对多模态社区的工程实践有明确参考价值；clarity得8分，全文逻辑清晰，框架描述通俗易懂，技术细节披露充分，可读性极强；reproducibility得7分，已开源代码，训练配置、模型细节描述完整，具备良好的复现基础。

一句总评

扎实的技术落地和意外的跨任务协同发现是工作最大亮点，后续补全消融实验与任务拓展后价值会进一步提升。