🔥 毒舌 GitHub
← 返回论文榜
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue et al.
47.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向专业领域长时序GUI任务的Workflow-GYM基准,测试发现当前最强GUI agent成功率仅略超30%,存在阶段遗漏、错误传播等缺陷,为专业GUI agent研究提供新评估方向

#GUI智能体基准#专业长工作流评估#落地痛点揭示#GUI Agent Benchmark#Professional Workflow Ev#Deployment Pain Point Re

维度评分

创新性6.0 / 10
严谨性5.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性4.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。