Item: WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
Rating: 68.83
Author: GitHub Roast

← 返回论文榜

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding et al.

68.83/100

📘 能读

合格之作 · 有可取之处

内容分 66.0 · 引用加成 +2.8 · 6 次引用

💡 本文提出WildClawBench，首个基于原生运行时、真实CLI工具的长周期多模态Agent评估基准，包含60个双语人工编写任务，测试19个前沿模型后发现最佳仅达62.2%准确率，且Agent运行框架本身会导致性能波动高达18分，配套开源容器化工具链保障可复现

#沙盒打假人#长周期Agent照妖镜#框架偏差揭露者#多模态Agent考公#容器化复现标杆#Sandbox Debunker#Long-horizon Agent Truth#Harness Bias Exposer#Multimodal Agent Exam#Containerized Reproducib

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。