💡 本文提出统一优化框架MARS,通过缩放随机递归动量技术融合预条件梯度方法与方差缩减,在GPT-2训练上验证较AdamW有显著性能提升
维度评分
报告
一句话定性
这是一篇瞄准大模型训练优化痛点的“概念验证型”工作,本质是现有优化技巧的整合式拼接,离真正可落地的大模型训练优化器还有相当距离。
创新点/贡献
提出了名为MARS的统一优化框架,通过新增的缩放随机递归动量技术,尝试打通预条件梯度方法(即各类自适应优化器)与方差缩减技术的壁垒;基于该框架给出了适配AdamW、Lion、Shampoo的三个具体优化器实例,在小规模GPT-2训练任务上验证了相对原生AdamW的性能优势。
问题与水分
这篇工作的水分和短板非常明显:首先实验规模严重不足,仅验证了GPT-2这种小模型,完全没有在当下主流的7B及以上大语言模型上做测试,完全无法证明其在大规模训练场景下的有效性;其次对照组极其敷衍,仅和AdamW做了对比,既没有和同领域的其他方差缩减优化器(如AdaVar、SVRG-Adam等)对标,也没有和框架内用到的Lion、Shampoo原生优化器对比,根本无法证明性能提升来自“方差缩减”还是其他冗余设计;更离谱的是完全没有理论收敛性分析,对算法的稳定性、适用参数范围、收敛速度上界没有任何理论支撑,相当于只给了实验结果就宣称有效;此外也没有核心模块的消融实验,无法证明新增的“缩放随机递归动量”到底贡献了多少增益,不排除是堆砌技巧带来的偶然提升。所谓的“统一框架”本质是把已有的方差缩减技巧生硬嫁接到自适应优化器上,加上个没经过充分验证的动量缩放模块,就敢用“Unleashing the Power”这种标题党式的命名,属实是把噱头拉满了,abstract里宣称的“consistently outperforms AdamW by a large margin”也完全是小范围实验的过度宣称。
维度简评
创新性5分:属于现有成熟技巧的整合式增量改进,没有提出突破性的新思想或理论,和开创性工作的差距极大;严谨性4分:实验规模小、对照缺失、无理论证明,证据链完全不完整,结论可信度极低;意义5分:方向契合大模型训练的真实需求,但价值尚未通过大规模实验兑现;清晰度7分:摘要表述逻辑清晰,核心内容易于理解;可复现性5分:虽开源代码但未公开关键训练配置与超参数,且仅提供小模型实验结果,大规模场景下的可复现性存疑。
总评
这篇工作踩准了大模型训练优化的真实痛点,方向本身是有价值的,但目前的工作强度仅相当于“初步探索”,连中期验证都算不上。实验的薄弱和理论的缺失让它的结论完全站不住脚,属于需要补全大规模实验、理论分析和消融验证才能进入评审视野的初稿,离顶会接收的标准还差得远。