OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li et al.
70.00/100
📘 能读
合格之作 · 有可取之处
内容分 70.0 · 引用加成 +0.0 · 暂无引用数据
💡 OSWorld是首个面向多模态智能体的跨真实操作系统(Ubuntu/Windows/macOS)开放任务基准,包含369个真实用例与自动化执行式评估,揭示当前最优模型仅12.24%成功率,远低于人类72.36%水平,为GUI通用智能体研发提供核心测试平台。
#GUI智能体基准#真实OS测试#多模态agent评估#执行式评测#人机交互研究#GUI Agent Benchmark#Real-OS Evaluation#Multimodal Agent Testbed#Execution-based Assessme#Human-AI Interaction Res
维度评分
创新性8.0 / 10
严谨性9.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性9.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。