Item: Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
Rating: 57.2
Author: GitHub Roast

← 返回论文榜

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang et al.

57.20/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 57.2 · 引用加成 +0.0 · 暂无引用数据

💡 本文系统梳理现有模型生长算子，验证深度堆叠算子G_stack在LLM预训练中的加速效果，规模化实验至7B模型/750B token，给出实操指南，实现最高54.6%的训练加速

#模型生长实用指南#7B LLM加速验证#Transformer堆#预训练成本砍半攻略#原子算子凑分类#practical model growth g#7B LLM acceleration vali#effective Transformer st#pre-training cost reduct#forced atomic operator c

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性7.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一篇填补LLM预训练模型生长领域系统性评估空白的实用型工作，没有开创性学术突破，但胜在扎实接地气，是少有的不搞噱头、实打实解决行业痛点的作品。

创新点/贡献：核心贡献是整理了散落的模型生长方法，拆成四个原子算子做标准化评估，挖出深度堆叠G_stack这一高效选择，首次将验证规模拉到7B模型/750B token的工业级量级，还给出了生长时机、生长因子的实操指南，直接把模型生长从“实验室玩具”拉到了“能用于生产环境”的级别。

问题与水分：首当其冲是完全没有理论解释——为啥堆层就能加速？和残差连接、参数初始化的关联是什么？全凭实验试错，本质是黑箱；其次基线对比不够狠，没和近年流行的深度初始化、渐进式预训练等高效方法做头对头，54.6%的加速优势是否站得住脚要打问号；四个“原子算子”的分类有点强行凑数，算子边界模糊，有为了发论文凑分类的嫌疑。