💡 本文提出WildClawBench,首个基于原生运行时、真实CLI工具的长周期多模态Agent评估基准,包含60个双语人工编写任务,测试19个前沿模型后发现最佳仅达62.2%准确率,且Agent运行框架本身会导致性能波动高达18分,配套开源容器化工具链保障可复现
维度评分
一句话定性
这是一篇没搞trick堆砌、没炒冷饭换皮,直接扎进Agent评估“沙盒自嗨”痛点的高质量基准工作,精准填补了长周期原生运行时Agent评估的空白。
创新点/贡献
首次把Agent评估从合成沙盒、mock服务拉回真实部署的原生CLI环境,采用真实工具而非假接口,任务平均耗时8分钟、需20+次工具调用,真正覆盖长周期复杂工作流;构建了60个人工编写、双语多模态的任务集,避免合成任务的分布偏移;提出规则校验+环境副作用审计+LLM/VLM语义判定的混合评分机制,比单一评分更可靠;首次系统性揭示Agent运行框架(harness)本身会对模型性能产生高达18分的影响,纠正了领域内“只换模型不换框架”的长期评估偏差。
问题与水分
任务规模仅60个,统计效力有限,且未披露任务难度分布、标注者一致性系数等关键细节;LLM/VLM评分的校准度、鲁棒性未做验证,存在judge偏差风险,生怕你偏心自家模型?仅测试4个主流harness,未覆盖更多工业界常用框架,结论普适性待拓展;未说明任务难度梯度、跨领域泛化性设计,存在任务分布偏倚的可能。
维度简评
创新性7分:精准填补空白但非范式级创新;严谨性8分:实验设计扎实、变量控制合理,但细节披露不足扣分;意义9分:直击Agent落地核心痛点,对学术界评估体系、工业界Agent选型均有直接指导价值;清晰度9分:表述逻辑清晰无歧义;可复现性9分:容器化工具链+全量开源,基本无复现障碍。
一句总评
虽然存在小瑕疵,但这是近两年少有的能直接指导工业界Agent落地的基准工作,比那些在mock环境里刷到99%准确率就吹“人类水平”的灌水Agent论文强了十个SWE-bench。