Item: Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
Rating: 47.6
Author: GitHub Roast

← 返回论文榜

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue et al.

47.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向专业领域长时序GUI任务的Workflow-GYM基准，测试发现当前最强GUI agent成功率仅略超30%，存在阶段遗漏、错误传播等缺陷，为专业GUI agent研究提供新评估方向

#GUI智能体基准#专业长工作流评估#落地痛点揭示#GUI Agent Benchmark#Professional Workflow Ev#Deployment Pain Point Re

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性4.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇精准踩中GUI agent落地专业场景痛点的基准论文，直接撕开了当前模型在长时序专业GUI任务上的能力遮羞布，但完成度仅停留在“抛砖引玉”的初版水平，水分相当明显。

创新点/贡献

首次将GUI agent的评估场景从通用短时序软件操作拓展到专业领域长工作流，针对性暴露了当前模型在专业软件理解、长流程一致性上的核心缺陷，填补了该细分评估场景的空白，为后续研究提供了新的测试维度。

问题与水分

论文的核心问题就是“只出题不给答案”：完全没说明数据集构建逻辑、领域覆盖的代表性依据，选这几个专业领域是行业调研还是拍脑袋语焉不详；既无开源承诺也无归因实验，只停留在“成功率低、有阶段遗漏”的表面现象罗列，连错误来源是感知、理解还是决策模块都没分析，结论支撑严重不足，堪称“考完试只报分数不给卷子”的典范。

维度简评

创新性6分：并非范式级创新，但确实填补了专业长时序GUI评估的空白，不算换皮灌水；
严谨性5分：有初步实验但缺乏对照、归因分析，结论的证据支撑不足；
意义7分：直击GUI agent从“玩具”到“工具”落地的核心痛点，实用价值很高；
清晰度8分：表述通顺，问题、方法、发现逻辑清晰，没有故弄玄虚；
可复现性4分：未提及任何资源开放承诺，实现细节缺失，几乎无法复现。

一句总评

选题顶好但完成度拉胯，离真正可用的领域基准还差十万八千里，补上开源、归因分析和领域论证后价值能翻数倍，现在也就只能给社区提个醒：别光在通用软件上刷分了，该去真·专业场景里练练了。