Item: ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
Rating: 45.6
Author: GitHub Roast

← 返回论文榜

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu et al.

45.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 45.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出基于离散表征的自回归大 multimodal 模型ARM，通过多目标监督视觉分词器与强化学习统一实现图像理解、生成、编辑，意外发现RL可诱导跨任务协同效应

#自回归多模态#离散视觉表征#RL跨任务协同#统一感知生成编辑#Autoregressive Multimoda#Discrete Visual Token#RL Cross-task Synergy#Unified Perception-Gener

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性4.0 / 10

意义6.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一篇有增量但严谨性拉胯的多模态统一框架工作，核心卖点是多目标分词器+RL跨任务协同，但实验设计堪称“自嗨式验证”。

创新点/贡献

设计了多目标监督的离散视觉分词器，同时优化语义判别性、语言对齐和重建质量，为多任务共享隐空间提供了更稳定的基础；
验证了7B自回归模型在图像理解、生成、编辑三类任务上的统一可行性，拓展了自回归多模态的边界；
意外发现RL优化不仅能提升单任务性能，还能诱导文本到图像生成与指令编辑的跨任务协同，是少有的新发现。

问题与水分

核心的“自回归统一多模态”范式绝非首创，Emu、Chameleon等前作已经把这条路走了大半，novelty被严重注水；实验完全不敢放同规模SOTA模型的横向对比，仅给出RL前后的纵向提升，相当于闭卷考试只写自己给自己打的分数，说服力为0；消融实验完全缺失，既无法证明多目标分词器各模块的实际贡献，也无法排除跨任务协同是其他超参导致的偶然结果；训练数据规模、配比等关键信息全缺，结果可信度直接打骨折。

维度简评

创新性5分：属于有实质增量的工程优化，绝非开创性工作；严谨性4分：实验对照、消融全缺，结论缺乏证据支撑；意义6分：方向正确但验证不足，潜在价值待观察；清晰度8分：写作规范逻辑通顺；可复现性7分：开源代码但缺关键训练细节。

总评

这篇工作本质是统一多模态自回归方向的常规迭代，RL跨任务协同的发现是唯一的亮点，但薄弱的实验设计连这个亮点都站不住脚，距离顶会录取标准还有明显差距，属于“讲了个半完整故事”的中间态工作。