🔥 毒舌 GitHub
← 返回论文榜
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu et al.
63.20/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 63.2 · 引用加成 +0.0 · 0 次引用

💡 本文系统揭示GRPO中序列/词元聚合的隐性优化偏差,提出即插即用的平衡聚合(BA)方法,在推理与代码任务上验证了其优于现有聚合策略的效果

#GRPO聚合玄学破解#即插即用涨点神器#大模型RL训练刚需#长回复歧视终结者#聚合策略挖坑指南#GRPO aggregation mystery#plug-and-play performanc#LLM RL training essentia#long response discrimina#aggregation strategy pit

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性8.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。