💡 本文提出RNG-Bench基准,专门评估多模态大模型在非马尔可夫游戏中重建历史观测并据此行动的能力,发现当前前沿模型的核心瓶颈是早期观测遗忘而非决策能力
维度评分
评审报告
一句话定性
这是一项切口精准、执行扎实的多模态大模型记忆能力专项评估基准工作,精准戳中了当前MLLM在长时序非可见观测场景下的核心短板,为领域研究提供了可复用的评估框架。
创新点与核心贡献
一是首次提出专门隔离“历史观测重建”与“决策能力”的非马尔可夫游戏基准RNG-Bench,包含匹配对、3D迷宫两个互补任务,设计网格大小、视觉模式、观测模态三个可控难度轴,可精准测试模型的记忆与决策分离能力;二是创新头部对决协议和记忆间隙指标,成功将遗忘导致的误差和决策失误导致的误差解耦,解决了传统非马尔可夫评估中能力混淆的痛点;三是通过大规模实证揭示当前前沿MLLM在128K token/350张图的长上下文场景下性能远未饱和,核心瓶颈是早期观测遗忘而非决策能力差,同时提出的微调方案验证了基准的实用性,且迁移性良好。
问题与水分
基准的游戏设计相对简化,和真实世界复杂非马尔可夫场景(如自动驾驶、机器人操作)的生态效度存在差距;微调实验仅覆盖Qwen3.5-9B单一基座,泛化性验证不足,未证明方案在其他规模、架构模型上的有效性;记忆间隙指标的合理性仅通过结果展示,缺乏充分的消融实验支撑其解耦能力的可靠性。
维度简评
创新性7分:精准定位了未被充分研究的细分方向,任务设计巧思十足;严谨性8分:实验控制变量合理,指标逻辑自洽,分析过程扎实;重要性8分:填补了MLLM记忆能力专项评估的空白,对模型优化有明确指导意义;清晰度9分:问题定义清晰,实验呈现一目了然;可复现性7分:基准代码开源,但微调超参数、数据过滤细节披露不足。
一句总评
虽存在场景简化、泛化验证不足的问题,但整体是质量过硬的细分领域基准工作,对多模态大模型的记忆能力研究有明确的参考价值。