💡 本文提出基于经典RL actor-critic范式的具身MLLM自学习框架SELU,通过critic的自我提问与逆时序重标定提升环境理解以驱动actor决策优化,在仿真环境中验证了自学习有效性
维度评分
一句话定性
这是一篇将强化学习领域用了数十年的经典actor-critic范式迁移到无外部反馈场景下具身MLLM自学习的增量工作,核心创新匮乏但瞄准了领域真实痛点。
创新点/贡献
首次尝试将actor-critic框架引入MLLM的具身自学习循环,提出通过critic的self-asking与hindsight relabeling从交互轨迹中提取环境知识,无需外部反馈即可同时提升模型的环境理解与决策能力,为无监督具身自学习提供了一个可落地的工程思路。
问题与水分
核心方法本质是现有技术的拼接:actor-critic是RL经典范式,self-asking与hindsight relabeling均为学界用烂的成熟模块,无任何理论或范式层面的创新,所谓“novel paradigm”完全是过度宣称;实验仅覆盖AI2-THOR、VirtualHome两个仿真环境,缺乏与当前SOTA自学习MLLM方法的对比,也未验证自学习指标提升能否转化为下游具身任务(如导航成功率、物体操作成功率)的实际增益,实验说服力极弱;未提及代码开源、泛化性测试、超参数细节,可复现性几乎为零。
维度简评
创新性仅3分,属于典型的范式迁移换皮工作;严谨性4分,实验设计单薄,结论缺乏充分证据支撑;意义6分,瞄准的痛点有价值但方法局限性过大;清晰度7分,摘要逻辑通顺无歧义;可复现性4分,关键细节完全缺失。
一句总评
这篇论文踩中了无外部反馈具身MLLM自学习的真实需求,但方法缺乏核心亮点、实验验证浮于表面,更像是一次常规的技术拼接尝试,距离高质量工作还有明显差距,最多算个合格的工程练手。