🔥 毒舌 GitHub
← 返回论文榜
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han et al.
52.80/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 52.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文指出现有RL训练LLM时低概率token因梯度幅值过大主导参数更新,提出优势重加权与Lopti两种方法抑制低概率token梯度、强化高概率token更新,在GRPO训练下于逻辑推理任务最高提升46.2%。

#RL训练LLM#梯度不平衡#GRPO优化#低概率token#逻辑推理#RL for LLM#gradient imbalance#GRPO optimization#low-probability token#logic reasoning

维度评分

创新性6.0 / 10
严谨性5.0 / 10
意义8.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10

一句话定性

这是一篇精准踩中RL训练LLM推理痛点、但实验验证稀碎、离“扎实工作”还差十万八千里的实用向半成品。

创新点/贡献

好歹是抓到了GRPO等主流RL算法训练里被所有人忽视的暗病:低概率token因为梯度幅值大,硬生生抢了高概率token的更新话语权,导致真正该学的核心模式学不到。提出的优势重加权和Lopti两个方法不用改核心RL框架,直接给低概率token的梯度“踩刹车”,思路直白且对症,问题识别能力比一堆堆砌trick的灌水论文强十条街。

问题与水分

最大的硬伤是实验摆烂:46.2%的提升听着唬人,全是在K&K逻辑谜题这一个窄到不行的任务上测的,和某些论文在MNIST上刷99.9%精度的套路异曲同工——挑软柿子捏,数学推理、代码生成这些RL训练的主流场景碰都不碰,也没和现有token级梯度调整、PPO改进等baseline做充分对比,连梯度幅值分布的量化证据都没有,就敢宣称是通用解法?相当于抓到了贼的脚印,还没看清脸就急着喊“我破案了”,纯纯的过度宣称。

维度简评

创新性6分:问题识别有亮点,但方法属于对症的增量改进,无突破性理论贡献;严谨性5分:实验覆盖极窄、对照不足,结论通用性存疑;意义8分:若结论成立可直接适配现有GRPO训练流程,实用价值拉满;清晰度8分:核心逻辑表述通顺,没有故弄玄虚的术语堆砌;可复现性7分:给了开源链接,但代码未落地验证前都是空头支票。

一句总评

这篇工作的问题嗅觉是顶级的,但现在的完成度只能算个“问题发现+初步思路”,离能用的完整工作还差得远,补全多任务实验和理论验证之前,别急着吹自己是RL for LLM的救星。