Item: Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
Rating: 52.8
Author: GitHub Roast

Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han et al.

52.80/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 52.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文指出现有RL训练LLM时低概率token因梯度幅值过大主导参数更新，提出优势重加权与Lopti两种方法抑制低概率token梯度、强化高概率token更新，在GRPO训练下于逻辑推理任务最高提升46.2%。

#RL训练LLM#梯度不平衡#GRPO优化#低概率token#逻辑推理#RL for LLM#gradient imbalance#GRPO optimization#low-probability token#logic reasoning

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。