🔥 毒舌 GitHub
← 返回论文榜
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han et al.
52.80/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 52.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文指出现有RL训练LLM时低概率token因梯度幅值过大主导参数更新,提出优势重加权与Lopti两种方法抑制低概率token梯度、强化高概率token更新,在GRPO训练下于逻辑推理任务最高提升46.2%。

#RL训练LLM#梯度不平衡#GRPO优化#低概率token#逻辑推理#RL for LLM#gradient imbalance#GRPO optimization#low-probability token#logic reasoning

维度评分

创新性6.0 / 10
严谨性5.0 / 10
意义8.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。