🔥 毒舌 GitHub
← 返回论文榜
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations
Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu et al.
45.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 45.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出基于离散表征的自回归大 multimodal 模型ARM,通过多目标监督视觉分词器与强化学习统一实现图像理解、生成、编辑,意外发现RL可诱导跨任务协同效应

#自回归多模态#离散视觉表征#RL跨任务协同#统一感知生成编辑#Autoregressive Multimoda#Discrete Visual Token#RL Cross-task Synergy#Unified Perception-Gener

维度评分

创新性5.0 / 10
严谨性4.0 / 10
意义6.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10

一句话定性:这是一篇有增量但严谨性拉胯的多模态统一框架工作,核心卖点是多目标分词器+RL跨任务协同,但实验设计堪称“自嗨式验证”。

创新点/贡献

  1. 设计了多目标监督的离散视觉分词器,同时优化语义判别性、语言对齐和重建质量,为多任务共享隐空间提供了更稳定的基础;
  2. 验证了7B自回归模型在图像理解、生成、编辑三类任务上的统一可行性,拓展了自回归多模态的边界;
  3. 意外发现RL优化不仅能提升单任务性能,还能诱导文本到图像生成与指令编辑的跨任务协同,是少有的新发现。

问题与水分

核心的“自回归统一多模态”范式绝非首创,Emu、Chameleon等前作已经把这条路走了大半,novelty被严重注水;实验完全不敢放同规模SOTA模型的横向对比,仅给出RL前后的纵向提升,相当于闭卷考试只写自己给自己打的分数,说服力为0;消融实验完全缺失,既无法证明多目标分词器各模块的实际贡献,也无法排除跨任务协同是其他超参导致的偶然结果;训练数据规模、配比等关键信息全缺,结果可信度直接打骨折。

维度简评

创新性5分:属于有实质增量的工程优化,绝非开创性工作;严谨性4分:实验对照、消融全缺,结论缺乏证据支撑;意义6分:方向正确但验证不足,潜在价值待观察;清晰度8分:写作规范逻辑通顺;可复现性7分:开源代码但缺关键训练细节。

总评

这篇工作本质是统一多模态自回归方向的常规迭代,RL跨任务协同的发现是唯一的亮点,但薄弱的实验设计连这个亮点都站不住脚,距离顶会录取标准还有明显差距,属于“讲了个半完整故事”的中间态工作。