🔥 毒舌 GitHub
← 返回论文榜
MARS: Unleashing the Power of Variance Reduction for Training Large Models
Huizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou et al.
40.40/100
💧
灌水嫌疑 · 价值存疑
内容分 40.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出统一优化框架MARS,通过缩放随机递归动量技术融合预条件梯度方法与方差缩减,在GPT-2训练上验证较AdamW有显著性能提升

#方差缩减#优化器缝合#大模型炼丹#递归动量#小模型验证#variance reduction#optimizer stitching#large model training#recursive momentum#small-scale validation

维度评分

创新性5.0 / 10
严谨性4.0 / 10
意义5.0 / 10
清晰度7.0 / 10
可复现性5.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。