Item: Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
Rating: 47.6
Author: GitHub Roast

← 返回论文榜

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue et al.

47.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向专业领域长时序GUI任务的Workflow-GYM基准，测试发现当前最强GUI agent成功率仅略超30%，存在阶段遗漏、错误传播等缺陷，为专业GUI agent研究提供新评估方向

#GUI智能体基准#专业长工作流评估#落地痛点揭示#GUI Agent Benchmark#Professional Workflow Ev#Deployment Pain Point Re

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性4.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。