Item: MARS: Unleashing the Power of Variance Reduction for Training Large Models
Rating: 40.4
Author: GitHub Roast

← 返回论文榜

MARS: Unleashing the Power of Variance Reduction for Training Large Models

Huizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou et al.

40.40/100

💧 水

灌水嫌疑 · 价值存疑

内容分 40.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出统一优化框架MARS，通过缩放随机递归动量技术融合预条件梯度方法与方差缩减，在GPT-2训练上验证较AdamW有显著性能提升

#方差缩减#优化器缝合#大模型炼丹#递归动量#小模型验证#variance reduction#optimizer stitching#large model training#recursive momentum#small-scale validation

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性4.0 / 10

意义5.0 / 10

清晰度7.0 / 10

可复现性5.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

报告

一句话定性

这是一篇瞄准大模型训练优化痛点的“概念验证型”工作，本质是现有优化技巧的整合式拼接，离真正可落地的大模型训练优化器还有相当距离。

创新点/贡献

提出了名为MARS的统一优化框架，通过新增的缩放随机递归动量技术，尝试打通预条件梯度方法（即各类自适应优化器）与方差缩减技术的壁垒；基于该框架给出了适配AdamW、Lion、Shampoo的三个具体优化器实例，在小规模GPT-2训练任务上验证了相对原生AdamW的性能优势。

问题与水分

这篇工作的水分和短板非常明显：首先实验规模严重不足，仅验证了GPT-2这种小模型，完全没有在当下主流的7B及以上大语言模型上做测试，完全无法证明其在大规模训练场景下的有效性；其次对照组极其敷衍，仅和AdamW做了对比，既没有和同领域的其他方差缩减优化器（如AdaVar、SVRG-Adam等）对标，也没有和框架内用到的Lion、Shampoo原生优化器对比，根本无法证明性能提升来自“方差缩减”还是其他冗余设计；更离谱的是完全没有理论收敛性分析，对算法的稳定性、适用参数范围、收敛速度上界没有任何理论支撑，相当于只给了实验结果就宣称有效；此外也没有核心模块的消融实验，无法证明新增的“缩放随机递归动量”到底贡献了多少增益，不排除是堆砌技巧带来的偶然提升。所谓的“统一框架”本质是把已有的方差缩减技巧生硬嫁接到自适应优化器上，加上个没经过充分验证的动量缩放模块，就敢用“Unleashing the Power”这种标题党式的命名，属实是把噱头拉满了，abstract里宣称的“consistently outperforms AdamW by a large margin”也完全是小范围实验的过度宣称。

维度简评

创新性5分：属于现有成熟技巧的整合式增量改进，没有提出突破性的新思想或理论，和开创性工作的差距极大；严谨性4分：实验规模小、对照缺失、无理论证明，证据链完全不完整，结论可信度极低；意义5分：方向契合大模型训练的真实需求，但价值尚未通过大规模实验兑现；清晰度7分：摘要表述逻辑清晰，核心内容易于理解；可复现性5分：虽开源代码但未公开关键训练配置与超参数，且仅提供小模型实验结果，大规模场景下的可复现性存疑。

总评

这篇工作踩准了大模型训练优化的真实痛点，方向本身是有价值的，但目前的工作强度仅相当于“初步探索”，连中期验证都算不上。实验的薄弱和理论的缺失让它的结论完全站不住脚，属于需要补全大规模实验、理论分析和消融验证才能进入评审视野的初稿，离顶会接收的标准还差得远。