GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
Tongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu et al.
60.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 60.4 · 引用加成 +0.0 · 暂无引用数据
💡 本文提出GameCraft-Bench,首个基于开源Godot引擎的端到端游戏生成评估基准,包含140个跨15类游戏的任务,揭示当前前沿编码智能体最高得分仅41.46%。
#游戏生成基准#编码智能体评估#Godot引擎#端到端交互任务#game generation benchmar#coding agent evaluation#Godot engine#end-to-end interactive t
维度评分
创新性7.0 / 10
严谨性6.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。