Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
Zhihe Yang, Xufang Luo, Zilong Wang, Dongqi Han et al.
52.80/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 52.8 · 引用加成 +0.0 · 暂无引用数据
💡 本文指出现有RL训练LLM时低概率token因梯度幅值过大主导参数更新,提出优势重加权与Lopti两种方法抑制低概率token梯度、强化高概率token更新,在GRPO训练下于逻辑推理任务最高提升46.2%。
#RL训练LLM#梯度不平衡#GRPO优化#低概率token#逻辑推理#RL for LLM#gradient imbalance#GRPO optimization#low-probability token#logic reasoning
维度评分
创新性6.0 / 10
严谨性5.0 / 10
意义8.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。