Item: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Rating: 73.95
Author: GitHub Roast

← 返回论文榜

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu et al.

73.95/100

📘 能读

合格之作 · 有可取之处

内容分 66.4 · 引用加成 +7.5 · 258 次引用

💡 提出Absolute Zero范式，大模型无需任何外部数据，通过自生成代码推理任务+自对弈强化学习实现推理能力自演化，零数据下达到代码与数学推理SOTA

#零数据RL#自对弈推理#大模型自演化#代码验证器#RLVR范式突破#zero-data RL#self-play reasoning#LLM self-evolution#code verifier#RLVR paradigm shift

去评测另一篇 →

维度评分

创新性9.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇掀了RLVR领域“人工数据依赖”桌子的范式级硬核工作，把“AI自己教自己”从空话落到了可验证的代码推理场景。

创新点/贡献

核心突破是彻底砍掉RLVR训练所需的人工标注问题集，提出用代码执行器作为统一可验证奖励源，让模型一边自生成 grounded 的代码推理任务，一边通过强化学习解题，实现训练课程和推理能力的同步自演化。零外部数据下干翻了依赖数万人工标注样本的现有零样本SOTA，且跨7B到34B等多个模型规模通用，直接给推理模型训练指了一条摆脱人工标注瓶颈的新路。

问题与水分

画饼环节过于离谱：上来就畅想“超智能系统学习”场景，合着连人类水平的推理都没摸到就开始规划AI统治宇宙后的训练方案？消融实验藏着掖着，没做“自生成任务vs随机任务”的核心对照，万一模型涨分全靠代码执行器的奖励信号，和自生成任务半毛钱关系没有，范式直接成笑话。此外泛化性验证完全缺失，除了代码推理外的其他任务场景（数学证明、常识推理等）提都没提，流程适用范围完全是未知数。

维度简评

创新性拉满，不是“换prompt涨2个点”的灌水 trick，是实打实的范式突破；实验覆盖多规模、双赛道，结论支撑充分，严谨性够硬，就是泛化验证短板太明显；意义层面直接戳中推理训练的最大痛点，scalability 潜力拉满；写作逻辑顺滑，无术语堆砌；可复现性目前扣分点是尚未开源，要是放出prompt和训练代码，基本能完美复现。

一句总评

近半年少有的硬货，虽然泛化短板和过度宣称的饼碍眼，但核心贡献足够扎实，完全对得起高分，补上非代码场景验证直接能当RLVR领域基准。