Item: Agentopia: Long-Term Life Simulation and Learning in Agent Societies
Rating: 46.4
Author: GitHub Roast

← 返回论文榜

Agentopia: Long-Term Life Simulation and Learning in Agent Societies

Xintao Wang, Sirui Zheng, Hongqiu Wu, Weiyuan Li et al.

46.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 46.4 · 引用加成 +0.0 · 暂无引用数据

💡 该文提出Agentopia框架实现100个LLM agent的10年长期社会模拟，通过模拟产生的life reward做拒绝采样训练LLM，验证了 emergent 社会行为与下游任务泛化效果

#LLM社会模拟#长期agent交互#社会智能训练#模拟奖励对齐#emergent 行为研#LLM Society Simulation#Long-term Agent Interact#Social Intelligence Trai#Simulated Reward Alignme#Emergent Behavior Resear

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性3.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

报告

一句话定性

这是一篇踩中LLM社会模拟热点的方向延伸型工作，本质是给短期agent社会模拟加了“时长buff”，但实验严谨性和可复现性短板明显，距离宣称的“让LLM获得社会智能”还差着十个社会智能benchmark。

创新点/贡献

首次尝试将多agent社会模拟尺度拉长到10年，探索了长期交互下的 emergent 社会行为；提出用模拟产生的“life reward”做拒绝采样训练LLM，初步验证了模拟经验对下游任务的泛化效果，为LLM社会智能训练提供了新思路。

问题与水分

100个agent的10年模拟看似规模大，实则无短期模拟对照， emergent 行为的“长期性”完全无法证实；“life reward”定义模糊无量化规则，训练提升的归因完全说不清是时长、reward还是训练方法的作用；宣称的+15.6%泛化提升仅来自单一角色扮演benchmark，和“社会智能”的关联性堪比用算盘算可控核聚变；消融实验、多维度社会智能评估完全缺失，结论支撑力度几乎为零。

维度简评

创新性6分：属于方向自然延伸，无突破性贡献；严谨性5分：缺对照、缺消融，结论过度宣称；意义7分：研究方向价值高，当前成果落地潜力有限；清晰度8分：写作通顺逻辑清晰；可复现性3分：核心细节、代码均未公开，几乎无法复现。

一句总评

这篇工作给LLM社会智能研究画了个“长期模拟”的大饼，但目前只烤出个面胚，离可落地的成品还差完整的实验体系和可复现细节，是典型的“方向对了但功夫没到位”的平庸之作。