Item: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Rating: 70
Author: GitHub Roast

← 返回论文榜

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li et al.

70.00/100

📘 能读

合格之作 · 有可取之处

内容分 70.0 · 引用加成 +0.0 · 暂无引用数据

💡 OSWorld是首个面向多模态智能体的跨真实操作系统（Ubuntu/Windows/macOS）开放任务基准，包含369个真实用例与自动化执行式评估，揭示当前最优模型仅12.24%成功率，远低于人类72.36%水平，为GUI通用智能体研发提供核心测试平台。

#GUI智能体基准#真实OS测试#多模态agent评估#执行式评测#人机交互研究#GUI Agent Benchmark#Real-OS Evaluation#Multimodal Agent Testbed#Execution-based Assessme#Human-AI Interaction Res

去评测另一篇 →

维度评分

创新性8.0 / 10

严谨性9.0 / 10

意义9.0 / 10

清晰度9.0 / 10

可复现性9.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。