Item: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Rating: 70
Author: GitHub Roast

← 返回论文榜

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li et al.

70.00/100

📘 能读

合格之作 · 有可取之处

内容分 70.0 · 引用加成 +0.0 · 暂无引用数据

💡 OSWorld是首个面向多模态智能体的跨真实操作系统（Ubuntu/Windows/macOS）开放任务基准，包含369个真实用例与自动化执行式评估，揭示当前最优模型仅12.24%成功率，远低于人类72.36%水平，为GUI通用智能体研发提供核心测试平台。

#GUI智能体基准#真实OS测试#多模态agent评估#执行式评测#人机交互研究#GUI Agent Benchmark#Real-OS Evaluation#Multimodal Agent Testbed#Execution-based Assessme#Human-AI Interaction Res

去评测另一篇 →

维度评分

创新性8.0 / 10

严谨性9.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这份工作精准戳中GUI多模态智能体领域“模拟环境自嗨”的痛点，是少有的扎实标杆性基准构建，直接把靠模拟环境刷SOTA的模型拉到了真实操作系统考场，扒出了当前技术的真实短板。

创新点/贡献

首个支持Ubuntu/Windows/macOS三大主流真实OS的可交互开放任务环境，打破此前benchmark要么模拟、要么单域的局限，为通用GUI智能体提供真实测试平台，顺便给模拟环境灌水论文当了照妖镜；
构建369个真实用例任务集，配套初始状态配置和定制化执行式评估脚本，避免主观打分问题；
大规模评测搭配72.36%人类基线，清晰揭示当前模型GUI grounding、操作知识的致命缺陷，为后续研究指明方向。

问题与水分

任务仍以办公、网页类为主，专业领域（工业软件、编程IDE等）任务空白；真实环境依赖特定OS/软件版本，跨环境复现有门槛；仅评估成功率，未覆盖交互效率、操作冗余度等维度。

维度简评

novelty 8/10：细分领域开创性基准，解决核心痛点，但无新范式/方法突破；rigor 9/10：实验扎实、对照完备，仅任务覆盖广度不足；significance 9/10：填补领域空白，引导作用强，待时间检验；clarity 9/10：逻辑清晰无晦涩；reproducibility 9/10：全材料公开、评估自动化，仅版本差异带来少量复现障碍。

一句总评

虽无新算法，但填补的空白价值远高于多数换皮灌水论文，是GUI智能体研究绕不开的必刷基准。