🔥 毒舌 GitHub
← 返回论文榜
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li et al.
70.00/100
📘 能读
合格之作 · 有可取之处
内容分 70.0 · 引用加成 +0.0 · 暂无引用数据

💡 OSWorld是首个面向多模态智能体的跨真实操作系统(Ubuntu/Windows/macOS)开放任务基准,包含369个真实用例与自动化执行式评估,揭示当前最优模型仅12.24%成功率,远低于人类72.36%水平,为GUI通用智能体研发提供核心测试平台。

#GUI智能体基准#真实OS测试#多模态agent评估#执行式评测#人机交互研究#GUI Agent Benchmark#Real-OS Evaluation#Multimodal Agent Testbed#Execution-based Assessme#Human-AI Interaction Res

维度评分

创新性8.0 / 10
严谨性9.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10

一句话定性

这份工作精准戳中GUI多模态智能体领域“模拟环境自嗨”的痛点,是少有的扎实标杆性基准构建,直接把靠模拟环境刷SOTA的模型拉到了真实操作系统考场,扒出了当前技术的真实短板。

创新点/贡献

  1. 首个支持Ubuntu/Windows/macOS三大主流真实OS的可交互开放任务环境,打破此前benchmark要么模拟、要么单域的局限,为通用GUI智能体提供真实测试平台,顺便给模拟环境灌水论文当了照妖镜;
  2. 构建369个真实用例任务集,配套初始状态配置和定制化执行式评估脚本,避免主观打分问题;
  3. 大规模评测搭配72.36%人类基线,清晰揭示当前模型GUI grounding、操作知识的致命缺陷,为后续研究指明方向。

问题与水分

任务仍以办公、网页类为主,专业领域(工业软件、编程IDE等)任务空白;真实环境依赖特定OS/软件版本,跨环境复现有门槛;仅评估成功率,未覆盖交互效率、操作冗余度等维度。

维度简评

novelty 8/10:细分领域开创性基准,解决核心痛点,但无新范式/方法突破;rigor 9/10:实验扎实、对照完备,仅任务覆盖广度不足;significance 9/10:填补领域空白,引导作用强,待时间检验;clarity 9/10:逻辑清晰无晦涩;reproducibility 9/10:全材料公开、评估自动化,仅版本差异带来少量复现障碍。

一句总评

虽无新算法,但填补的空白价值远高于多数换皮灌水论文,是GUI智能体研究绕不开的必刷基准。