🔥 毒舌 GitHub
← 返回论文榜
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding et al.
68.83/100
📘 能读
合格之作 · 有可取之处
内容分 66.0 · 引用加成 +2.8 · 6 次引用

💡 本文提出WildClawBench,首个基于原生运行时、真实CLI工具的长周期多模态Agent评估基准,包含60个双语人工编写任务,测试19个前沿模型后发现最佳仅达62.2%准确率,且Agent运行框架本身会导致性能波动高达18分,配套开源容器化工具链保障可复现

#沙盒打假人#长周期Agent照妖镜#框架偏差揭露者#多模态Agent考公#容器化复现标杆#Sandbox Debunker#Long-horizon Agent Truth#Harness Bias Exposer#Multimodal Agent Exam#Containerized Reproducib

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

一句话定性

这是一篇没搞trick堆砌、没炒冷饭换皮,直接扎进Agent评估“沙盒自嗨”痛点的高质量基准工作,精准填补了长周期原生运行时Agent评估的空白。

创新点/贡献

首次把Agent评估从合成沙盒、mock服务拉回真实部署的原生CLI环境,采用真实工具而非假接口,任务平均耗时8分钟、需20+次工具调用,真正覆盖长周期复杂工作流;构建了60个人工编写、双语多模态的任务集,避免合成任务的分布偏移;提出规则校验+环境副作用审计+LLM/VLM语义判定的混合评分机制,比单一评分更可靠;首次系统性揭示Agent运行框架(harness)本身会对模型性能产生高达18分的影响,纠正了领域内“只换模型不换框架”的长期评估偏差。

问题与水分

任务规模仅60个,统计效力有限,且未披露任务难度分布、标注者一致性系数等关键细节;LLM/VLM评分的校准度、鲁棒性未做验证,存在judge偏差风险,生怕你偏心自家模型?仅测试4个主流harness,未覆盖更多工业界常用框架,结论普适性待拓展;未说明任务难度梯度、跨领域泛化性设计,存在任务分布偏倚的可能。

维度简评

创新性7分:精准填补空白但非范式级创新;严谨性8分:实验设计扎实、变量控制合理,但细节披露不足扣分;意义9分:直击Agent落地核心痛点,对学术界评估体系、工业界Agent选型均有直接指导价值;清晰度9分:表述逻辑清晰无歧义;可复现性9分:容器化工具链+全量开源,基本无复现障碍。

一句总评

虽然存在小瑕疵,但这是近两年少有的能直接指导工业界Agent落地的基准工作,比那些在mock环境里刷到99%准确率就吹“人类水平”的灌水Agent论文强了十个SWE-bench。