💡 本文提出RNG-Bench基准,专门评估多模态大模型在非马尔可夫游戏中重建历史观测并据此行动的能力,发现当前前沿模型的核心瓶颈是早期观测遗忘而非决策能力
维度评分
一句话定性
这是一份精准填补多模态大模型非马尔可夫场景能力评估空白的扎实工作,问题定义直击当前闭环策略落地的核心痛点。
创新点/贡献
首次将“历史观测重建+基于重建的多步行动”能力从其他 agent 技能中剥离,提出 RNG-Bench 基准;设计 Memory Gap 指标拆解遗忘与决策的误差来源,搭配头对头 duel 协议控制实例方差;验证了基于最优策略回滚的微调方案可迁移至其他基准且不损害通用能力。
问题与水分
别家benchmark要么给模型开卷考直接喂全状态,要么把记忆、推理、导航一堆技能混在一起考,这篇直接划隔离区专门测“记不记得住之前看过啥还能不能用”,踩点精准。但俩游戏场景太单薄,翻牌、3D迷宫离真实机器人、自动驾驶等非马尔可夫场景差得远,说白了就是玩具场景基准,拿这个结论推真实场景纯属耍流氓; hardest 配置要塞128K token、350张图,单次推理成本够普通实验室喝一壶,社区复现都得掂量钱包;abstract半句没提代码、数据集开源,合着基准是准备内部消化?微调仅验证Qwen3.5-9B单基座,结论普适性直接打骨折。
维度简评
创新性7分:精准定位现有benchmark盲区,非换皮堆 trick,但没到开宗立派的级别;严谨性8分:控制三个难度轴、误差拆解、对照实验设计扎实,结论有证据支撑;意义8分:直接点出当前MLLM核心瓶颈是遗忘而非决策,对后续优化指导性比多数刷分基准强得多;清晰度9分:逻辑通顺无晦涩表述,读着不费劲;可复现性7分:基准设计描述清晰,但无开源承诺、高推理成本拉高了复现门槛。
总评
虽场景覆盖和验证广度有短板,但比多数凑数灌水的benchmark强得多,至少给社区提供了首个专门评估非马尔可夫场景记忆能力的标尺,值得领域跟进。