Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue et al.
47.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 47.6 · 引用加成 +0.0 · 暂无引用数据
💡 本文提出面向专业领域长时序GUI任务的Workflow-GYM基准,测试发现当前最强GUI agent成功率仅略超30%,存在阶段遗漏、错误传播等缺陷,为专业GUI agent研究提供新评估方向
#GUI智能体基准#专业长工作流评估#落地痛点揭示#GUI Agent Benchmark#Professional Workflow Ev#Deployment Pain Point Re
维度评分
创新性6.0 / 10
严谨性5.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性4.0 / 10
一句话定性
这是一篇精准踩中GUI agent落地专业场景痛点的基准论文,直接撕开了当前模型在长时序专业GUI任务上的能力遮羞布,但完成度仅停留在“抛砖引玉”的初版水平,水分相当明显。
创新点/贡献
首次将GUI agent的评估场景从通用短时序软件操作拓展到专业领域长工作流,针对性暴露了当前模型在专业软件理解、长流程一致性上的核心缺陷,填补了该细分评估场景的空白,为后续研究提供了新的测试维度。
问题与水分
论文的核心问题就是“只出题不给答案”:完全没说明数据集构建逻辑、领域覆盖的代表性依据,选这几个专业领域是行业调研还是拍脑袋语焉不详;既无开源承诺也无归因实验,只停留在“成功率低、有阶段遗漏”的表面现象罗列,连错误来源是感知、理解还是决策模块都没分析,结论支撑严重不足,堪称“考完试只报分数不给卷子”的典范。
维度简评
- 创新性6分:并非范式级创新,但确实填补了专业长时序GUI评估的空白,不算换皮灌水;
- 严谨性5分:有初步实验但缺乏对照、归因分析,结论的证据支撑不足;
- 意义7分:直击GUI agent从“玩具”到“工具”落地的核心痛点,实用价值很高;
- 清晰度8分:表述通顺,问题、方法、发现逻辑清晰,没有故弄玄虚;
- 可复现性4分:未提及任何资源开放承诺,实现细节缺失,几乎无法复现。
一句总评
选题顶好但完成度拉胯,离真正可用的领域基准还差十万八千里,补上开源、归因分析和领域论证后价值能翻数倍,现在也就只能给社区提个醒:别光在通用软件上刷分了,该去真·专业场景里练练了。