Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu et al.
73.95/100
📘 能读
合格之作 · 有可取之处
内容分 66.4 · 引用加成 +7.5 · 258 次引用
💡 提出Absolute Zero范式,大模型无需任何外部数据,通过自生成代码推理任务+自对弈强化学习实现推理能力自演化,零数据下达到代码与数学推理SOTA
#零数据RL#自对弈推理#大模型自演化#代码验证器#RLVR范式突破#zero-data RL#self-play reasoning#LLM self-evolution#code verifier#RLVR paradigm shift
维度评分
创新性9.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10
一句话定性
这是一篇掀了RLVR领域“人工数据依赖”桌子的范式级硬核工作,把“AI自己教自己”从空话落到了可验证的代码推理场景。
创新点/贡献
核心突破是彻底砍掉RLVR训练所需的人工标注问题集,提出用代码执行器作为统一可验证奖励源,让模型一边自生成 grounded 的代码推理任务,一边通过强化学习解题,实现训练课程和推理能力的同步自演化。零外部数据下干翻了依赖数万人工标注样本的现有零样本SOTA,且跨7B到34B等多个模型规模通用,直接给推理模型训练指了一条摆脱人工标注瓶颈的新路。
问题与水分
画饼环节过于离谱:上来就畅想“超智能系统学习”场景,合着连人类水平的推理都没摸到就开始规划AI统治宇宙后的训练方案?消融实验藏着掖着,没做“自生成任务vs随机任务”的核心对照,万一模型涨分全靠代码执行器的奖励信号,和自生成任务半毛钱关系没有,范式直接成笑话。此外泛化性验证完全缺失,除了代码推理外的其他任务场景(数学证明、常识推理等)提都没提,流程适用范围完全是未知数。
维度简评
创新性拉满,不是“换prompt涨2个点”的灌水 trick,是实打实的范式突破;实验覆盖多规模、双赛道,结论支撑充分,严谨性够硬,就是泛化验证短板太明显;意义层面直接戳中推理训练的最大痛点,scalability 潜力拉满;写作逻辑顺滑,无术语堆砌;可复现性目前扣分点是尚未开源,要是放出prompt和训练代码,基本能完美复现。
一句总评
近半年少有的硬货,虽然泛化短板和过度宣称的饼碍眼,但核心贡献足够扎实,完全对得起高分,补上非代码场景验证直接能当RLVR领域基准。