🔥 毒舌 GitHub
← 返回论文榜
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu et al.
73.95/100
📘 能读
合格之作 · 有可取之处
内容分 66.4 · 引用加成 +7.5 · 258 次引用

💡 提出Absolute Zero范式,大模型无需任何外部数据,通过自生成代码推理任务+自对弈强化学习实现推理能力自演化,零数据下达到代码与数学推理SOTA

#零数据RL#自对弈推理#大模型自演化#代码验证器#RLVR范式突破#zero-data RL#self-play reasoning#LLM self-evolution#code verifier#RLVR paradigm shift

维度评分

创新性9.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。