Item: Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
Rating: 52.8
Author: GitHub Roast

← 返回论文榜

Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han et al.

52.80/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 52.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文指出现有RL训练LLM时低概率token因梯度幅值过大主导参数更新，提出优势重加权与Lopti两种方法抑制低概率token梯度、强化高概率token更新，在GRPO训练下于逻辑推理任务最高提升46.2%。

#RL训练LLM#梯度不平衡#GRPO优化#低概率token#逻辑推理#RL for LLM#gradient imbalance#GRPO optimization#low-probability token#logic reasoning

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇精准踩中RL训练LLM推理痛点、但实验验证稀碎、离“扎实工作”还差十万八千里的实用向半成品。

创新点/贡献

好歹是抓到了GRPO等主流RL算法训练里被所有人忽视的暗病：低概率token因为梯度幅值大，硬生生抢了高概率token的更新话语权，导致真正该学的核心模式学不到。提出的优势重加权和Lopti两个方法不用改核心RL框架，直接给低概率token的梯度“踩刹车”，思路直白且对症，问题识别能力比一堆堆砌trick的灌水论文强十条街。

问题与水分

最大的硬伤是实验摆烂：46.2%的提升听着唬人，全是在K&K逻辑谜题这一个窄到不行的任务上测的，和某些论文在MNIST上刷99.9%精度的套路异曲同工——挑软柿子捏，数学推理、代码生成这些RL训练的主流场景碰都不碰，也没和现有token级梯度调整、PPO改进等baseline做充分对比，连梯度幅值分布的量化证据都没有，就敢宣称是通用解法？相当于抓到了贼的脚印，还没看清脸就急着喊“我破案了”，纯纯的过度宣称。

维度简评

创新性6分：问题识别有亮点，但方法属于对症的增量改进，无突破性理论贡献；严谨性5分：实验覆盖极窄、对照不足，结论通用性存疑；意义8分：若结论成立可直接适配现有GRPO训练流程，实用价值拉满；清晰度8分：核心逻辑表述通顺，没有故弄玄虚的术语堆砌；可复现性7分：给了开源链接，但代码未落地验证前都是空头支票。

一句总评

这篇工作的问题嗅觉是顶级的，但现在的完成度只能算个“问题发现+初步思路”，离能用的完整工作还差得远，补全多任务实验和理论验证之前，别急着吹自己是RL for LLM的救星。