🔥 毒舌 GitHub
← 返回论文榜
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu et al.
60.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 60.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出GameCraft-Bench,首个基于开源Godot引擎的端到端游戏生成评估基准,包含140个跨15类游戏的任务,揭示当前前沿编码智能体最高得分仅41.46%。

#游戏生成基准#编码智能体评估#Godot引擎#端到端交互任务#game generation benchmar#coding agent evaluation#Godot engine#end-to-end interactive t

维度评分

创新性7.0 / 10
严谨性6.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

报告

一句话定性

这是一份精准击中“游戏生成研究缺乏真实引擎端到端评估”痛点的基准工作,方向选得准、资源公开良心,但创新高度和实验严谨性都离顶级 benchmark 有明显差距。

创新点/贡献

首次提出端到端游戏生成的三个核心评估维度(引擎落地、产物完整、交互验证),搭建了基于回放演示和多模态 rubric 的评估框架,构建了首个基于开源 Godot 引擎的 140 任务游戏生成基准,公开全部代码、数据和演示资源,为 coding agent 的游戏生成研究提供了真实场景的统一评估标尺。

问题与水分

创新性水分明显:三个“核心维度”说白了就是把“游戏得能在引擎跑、得完整、能玩”的大白话包装成学术术语,既未和现有代码、游戏生成评估维度做对比,也没论证其必要性,属于细分填补而非范式创新。实验严谨性不足:未报告任务难度分布、评判者一致性、性能差异的统计显著性,也未对评估框架做消融验证,仅抛出一个最高 41.46% 的结果,缺乏对失败原因的深度拆解,对后续优化指导性有限。

维度简评

创新性7分:有价值但无突破性;严谨性6分:规模达标但基础验证缺失;意义8分:痛点精准,潜力大;清晰度9分:表达流畅无歧义;可复现性9分:资源全公开,基于开源引擎。

一句总评

这是一份“解决了真问题但没做到极致”的合格基准,胜在方向正确,至少给沉迷于“生成代码就当做游戏”的研究者们扔了个真实的引擎照妖镜,但距离定义领域方向的顶级工作还有不小差距。