Item: WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Rating: 68.83
Author: GitHub Roast

← 返回论文榜

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding et al.

68.83/100

📘 能读

合格之作 · 有可取之处

内容分 66.0 · 引用加成 +2.8 · 6 次引用

💡 本文提出WildClawBench，首个基于原生运行时、真实CLI工具的长周期多模态Agent评估基准，包含60个双语人工编写任务，测试19个前沿模型后发现最佳仅达62.2%准确率，且Agent运行框架本身会导致性能波动高达18分，配套开源容器化工具链保障可复现

#沙盒打假人#长周期Agent照妖镜#框架偏差揭露者#多模态Agent考公#容器化复现标杆#Sandbox Debunker#Long-horizon Agent Truth#Harness Bias Exposer#Multimodal Agent Exam#Containerized Reproducib

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇没搞trick堆砌、没炒冷饭换皮，直接扎进Agent评估“沙盒自嗨”痛点的高质量基准工作，精准填补了长周期原生运行时Agent评估的空白。

创新点/贡献

首次把Agent评估从合成沙盒、mock服务拉回真实部署的原生CLI环境，采用真实工具而非假接口，任务平均耗时8分钟、需20+次工具调用，真正覆盖长周期复杂工作流；构建了60个人工编写、双语多模态的任务集，避免合成任务的分布偏移；提出规则校验+环境副作用审计+LLM/VLM语义判定的混合评分机制，比单一评分更可靠；首次系统性揭示Agent运行框架（harness）本身会对模型性能产生高达18分的影响，纠正了领域内“只换模型不换框架”的长期评估偏差。

问题与水分

任务规模仅60个，统计效力有限，且未披露任务难度分布、标注者一致性系数等关键细节；LLM/VLM评分的校准度、鲁棒性未做验证，存在judge偏差风险，生怕你偏心自家模型？仅测试4个主流harness，未覆盖更多工业界常用框架，结论普适性待拓展；未说明任务难度梯度、跨领域泛化性设计，存在任务分布偏倚的可能。

维度简评

创新性7分：精准填补空白但非范式级创新；严谨性8分：实验设计扎实、变量控制合理，但细节披露不足扣分；意义9分：直击Agent落地核心痛点，对学术界评估体系、工业界Agent选型均有直接指导价值；清晰度9分：表述逻辑清晰无歧义；可复现性9分：容器化工具链+全量开源，基本无复现障碍。

一句总评

虽然存在小瑕疵，但这是近两年少有的能直接指导工业界Agent落地的基准工作，比那些在mock环境里刷到99%准确率就吹“人类水平”的灌水Agent论文强了十个SWE-bench。