WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding et al.
68.83/100
📘 能读
合格之作 · 有可取之处
内容分 66.0 · 引用加成 +2.8 · 6 次引用
💡 本文提出WildClawBench,首个基于原生运行时、真实CLI工具的长周期多模态Agent评估基准,包含60个双语人工编写任务,测试19个前沿模型后发现最佳仅达62.2%准确率,且Agent运行框架本身会导致性能波动高达18分,配套开源容器化工具链保障可复现
#沙盒打假人#长周期Agent照妖镜#框架偏差揭露者#多模态Agent考公#容器化复现标杆#Sandbox Debunker#Long-horizon Agent Truth#Harness Bias Exposer#Multimodal Agent Exam#Containerized Reproducib
维度评分
创新性7.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。