Item: Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO
Rating: 63.2
Author: GitHub Roast

← 返回论文榜

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu et al.

63.20/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 63.2 · 引用加成 +0.0 · 0 次引用

💡 本文系统揭示GRPO中序列/词元聚合的隐性优化偏差，提出即插即用的平衡聚合（BA）方法，在推理与代码任务上验证了其优于现有聚合策略的效果

#GRPO聚合玄学破解#即插即用涨点神器#大模型RL训练刚需#长回复歧视终结者#聚合策略挖坑指南#GRPO aggregation mystery#plug-and-play performanc#LLM RL training essentia#long response discrimina#aggregation strategy pit

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性8.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

定性：这篇是GRPO训练管线里少有的没搞换皮灌水、精准戳中行业痛点的实用型好工作，完全不是那种改个公式涨1%点就吹上天的水文。

创新与贡献

首次系统拆解了GRPO两种主流聚合策略的隐性偏差：词元聚合引入符号-长度耦合，序列聚合隐式降权长回复，提出仅需修改聚合逻辑的即插即用BA方法，无需调整其他超参，在多模型、多数据集、6个推理/代码benchmark上验证了稳定性和性能提升，还揭示了聚合效果与回复长度、正负长度gap的关联，把原本被默认的“随便选就行”的聚合环节变成了可设计的超参维度。

问题与水分

理论分析基本是凑数的，除了用大白话把两种聚合的偏差现象复述了一遍，连个最基本的收敛性形式化推导都掏不出来，完全配不上这篇工作的实验贡献；实验场景窄得可怜，除了数学和代码啥也没测，连对话、安全对齐这些RLVR最主流的应用场景都不碰，完全没证明BA不是只在特定任务上管用的“特化药方”；BA的权重设定完全是作者拍脑袋用的序列数加权，连个敏感性分析都不做，自适应权重、长度归一化这些更合理的可能性提都不提，明显是实验没做全就急着投arxiv。

维度简评

创新性7分：挖出长期被忽视的聚合偏差问题，方案有实质新意，非增量堆砌；严谨性8分：实验对照充分，结论有数据支撑，仅理论部分薄弱；意义8分：解决GRPO实际训练的普遍痛点，即插即用落地性强；清晰度9分：写作流畅，方法无歧义，逻辑清晰；可复现性8分：公开数据集、模型，方法细节完整，易于复现。

总评

整体是质量过硬的实用型工作，没有过度宣称，改进简单但收益明确，对GRPO训练的研究者和工程师都有极高参考价值，补上理论证明和泛化性实验后完全具备顶会水平。