🔥 毒舌 GitHub
← 返回论文榜
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue et al.
47.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向专业领域长时序GUI任务的Workflow-GYM基准,测试发现当前最强GUI agent成功率仅略超30%,存在阶段遗漏、错误传播等缺陷,为专业GUI agent研究提供新评估方向

#GUI智能体基准#专业长工作流评估#落地痛点揭示#GUI Agent Benchmark#Professional Workflow Ev#Deployment Pain Point Re

维度评分

创新性6.0 / 10
严谨性5.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性4.0 / 10

一句话定性

这是一篇精准踩中GUI agent落地专业场景痛点的基准论文,直接撕开了当前模型在长时序专业GUI任务上的能力遮羞布,但完成度仅停留在“抛砖引玉”的初版水平,水分相当明显。

创新点/贡献

首次将GUI agent的评估场景从通用短时序软件操作拓展到专业领域长工作流,针对性暴露了当前模型在专业软件理解、长流程一致性上的核心缺陷,填补了该细分评估场景的空白,为后续研究提供了新的测试维度。

问题与水分

论文的核心问题就是“只出题不给答案”:完全没说明数据集构建逻辑、领域覆盖的代表性依据,选这几个专业领域是行业调研还是拍脑袋语焉不详;既无开源承诺也无归因实验,只停留在“成功率低、有阶段遗漏”的表面现象罗列,连错误来源是感知、理解还是决策模块都没分析,结论支撑严重不足,堪称“考完试只报分数不给卷子”的典范。

维度简评

  • 创新性6分:并非范式级创新,但确实填补了专业长时序GUI评估的空白,不算换皮灌水;
  • 严谨性5分:有初步实验但缺乏对照、归因分析,结论的证据支撑不足;
  • 意义7分:直击GUI agent从“玩具”到“工具”落地的核心痛点,实用价值很高;
  • 清晰度8分:表述通顺,问题、方法、发现逻辑清晰,没有故弄玄虚;
  • 可复现性4分:未提及任何资源开放承诺,实现细节缺失,几乎无法复现。

一句总评

选题顶好但完成度拉胯,离真正可用的领域基准还差十万八千里,补上开源、归因分析和领域论证后价值能翻数倍,现在也就只能给社区提个醒:别光在通用软件上刷分了,该去真·专业场景里练练了。