Item: GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
Rating: 60.4
Author: GitHub Roast

← 返回论文榜

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu et al.

60.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 60.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出GameCraft-Bench，首个基于开源Godot引擎的端到端游戏生成评估基准，包含140个跨15类游戏的任务，揭示当前前沿编码智能体最高得分仅41.46%。

#游戏生成基准#编码智能体评估#Godot引擎#端到端交互任务#game generation benchmar#coding agent evaluation#Godot engine#end-to-end interactive t

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性6.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

报告

一句话定性

这是一份精准击中“游戏生成研究缺乏真实引擎端到端评估”痛点的基准工作，方向选得准、资源公开良心，但创新高度和实验严谨性都离顶级 benchmark 有明显差距。

创新点/贡献

首次提出端到端游戏生成的三个核心评估维度（引擎落地、产物完整、交互验证），搭建了基于回放演示和多模态 rubric 的评估框架，构建了首个基于开源 Godot 引擎的 140 任务游戏生成基准，公开全部代码、数据和演示资源，为 coding agent 的游戏生成研究提供了真实场景的统一评估标尺。

问题与水分

创新性水分明显：三个“核心维度”说白了就是把“游戏得能在引擎跑、得完整、能玩”的大白话包装成学术术语，既未和现有代码、游戏生成评估维度做对比，也没论证其必要性，属于细分填补而非范式创新。实验严谨性不足：未报告任务难度分布、评判者一致性、性能差异的统计显著性，也未对评估框架做消融验证，仅抛出一个最高 41.46% 的结果，缺乏对失败原因的深度拆解，对后续优化指导性有限。

维度简评

创新性7分：有价值但无突破性；严谨性6分：规模达标但基础验证缺失；意义8分：痛点精准，潜力大；清晰度9分：表达流畅无歧义；可复现性9分：资源全公开，基于开源引擎。

一句总评

这是一份“解决了真问题但没做到极致”的合格基准，胜在方向正确，至少给沉迷于“生成代码就当做游戏”的研究者们扔了个真实的引擎照妖镜，但距离定义领域方向的顶级工作还有不小差距。