GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu et al.
60.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 60.4 · 引用加成 +0.0 · 暂无引用数据
💡 本文提出GameCraft-Bench,首个基于开源Godot引擎的端到端游戏生成评估基准,包含140个跨15类游戏的任务,揭示当前前沿编码智能体最高得分仅41.46%。
#游戏生成基准#编码智能体评估#Godot引擎#端到端交互任务#game generation benchmar#coding agent evaluation#Godot engine#end-to-end interactive t
维度评分
创新性7.0 / 10
严谨性6.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10
报告
一句话定性
这是一份精准击中“游戏生成研究缺乏真实引擎端到端评估”痛点的基准工作,方向选得准、资源公开良心,但创新高度和实验严谨性都离顶级 benchmark 有明显差距。
创新点/贡献
首次提出端到端游戏生成的三个核心评估维度(引擎落地、产物完整、交互验证),搭建了基于回放演示和多模态 rubric 的评估框架,构建了首个基于开源 Godot 引擎的 140 任务游戏生成基准,公开全部代码、数据和演示资源,为 coding agent 的游戏生成研究提供了真实场景的统一评估标尺。
问题与水分
创新性水分明显:三个“核心维度”说白了就是把“游戏得能在引擎跑、得完整、能玩”的大白话包装成学术术语,既未和现有代码、游戏生成评估维度做对比,也没论证其必要性,属于细分填补而非范式创新。实验严谨性不足:未报告任务难度分布、评判者一致性、性能差异的统计显著性,也未对评估框架做消融验证,仅抛出一个最高 41.46% 的结果,缺乏对失败原因的深度拆解,对后续优化指导性有限。
维度简评
创新性7分:有价值但无突破性;严谨性6分:规模达标但基础验证缺失;意义8分:痛点精准,潜力大;清晰度9分:表达流畅无歧义;可复现性9分:资源全公开,基于开源引擎。
一句总评
这是一份“解决了真问题但没做到极致”的合格基准,胜在方向正确,至少给沉迷于“生成代码就当做游戏”的研究者们扔了个真实的引擎照妖镜,但距离定义领域方向的顶级工作还有不小差距。