NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou et al.
63.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 63.6 · 引用加成 +0.0 · 暂无引用数据
💡 本文提出NL2Repo-Bench基准,专门评估coding agent的长程仓库生成能力:要求模型仅从单一自然语言需求文档,自主完成架构设计、依赖管理、多模块实现,输出完整可安装的Python库,实验发现当前最强模型平均测试通过率不足40%,长程推理是核心瓶颈。
#coding agent#长程代码生成#软件工程基准#LLM能力短板#真实落地评估#coding agent truth serum#long-horizon code genera#software engineering ben#LLM capability gap#real-world deployment ev
维度评分
创新性7.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性7.0 / 10
一句话定性
这是一份专治LLM coding agent“短程刷分牛皮”的照妖镜式benchmark工作,没有搞新模型刷分的花活,直接把行业心知肚明但没人敢摆上台面的长程仓库生成能力短板戳破了。
创新点/贡献
首次将“从零自然语言需求到完整可安装Python库”的长程仓库生成作为独立评估任务,填补了现有benchmark只测单文件补全、短修复、脚手架生成的评估盲区,任务设计完全贴合真实软件开发流程,没有人为降维。
问题与水分
- 场景局限性明显:仅覆盖Python单语言库,对多语言混合、复杂企业级依赖管理的真实仓库场景完全没覆盖,相当于先考了小学数学就敢吹掌握了微积分;
- 失败模式分析只列现象不挖根因:只说了“全局coherence丢失、跨文件依赖脆弱”,没拆解到底是模型规划能力不足、上下文窗口限制还是工具调用缺陷,相当于拍了CT片没出诊断报告;
- 未明确公开任务集、评估脚本和数据集,要是最后只放个排行榜不公开资源,可复现性直接打骨折。
维度简评
创新性7分:属于填补空白的实用型benchmark,无方法论层面的开创性贡献;严谨性8分:覆盖主流开源/闭源SOTA模型,评估标准客观,结论有充足数据支撑;意义9分:直指coding agent落地的核心瓶颈,对后续研发的指导价值极高;清晰度9分:问题定义、贡献阐述、实验结论逻辑通顺无歧义;可复现性7分:评估标准明确,但未承诺公开核心资源,存在复现风险。
一句总评
虽然存在场景覆盖窄、归因不深的小毛病,但这份工作把行业“避重就轻测短程能力”的遮羞布扯开了一大块,是当前coding agent评估领域少有的务实之作,值得领域跟进。