Item: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Rating: 73.95
Author: GitHub Roast

Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu et al.

73.95/100

📘 能读

合格之作 · 有可取之处

内容分 66.4 · 引用加成 +7.5 · 258 次引用

💡 提出Absolute Zero范式，大模型无需任何外部数据，通过自生成代码推理任务+自对弈强化学习实现推理能力自演化，零数据下达到代码与数学推理SOTA

#零数据RL#自对弈推理#大模型自演化#代码验证器#RLVR范式突破#zero-data RL#self-play reasoning#LLM self-evolution#code verifier#RLVR paradigm shift

维度评分

创新性9.0 / 10

严谨性8.0 / 10

意义9.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。