🔥 毒舌 GitHub
← 返回论文榜
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining
Zhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua et al.
39.60/100
💧
灌水嫌疑 · 价值存疑
内容分 39.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出通过多智能体模拟反向合成软件开发中间轨迹用于LLM预训练,宣称可提升模型长程推理与代码能力

#代码预训练画饼#轨迹合成#多智能体套娃#长程推理玄学#实验摆烂#code pre-training pie-in#trajectory synthesis#multi-agent nesting#long-horizon reasoning m#shoddy experiments

维度评分

创新性6.0 / 10
严谨性3.0 / 10
意义6.0 / 10
清晰度7.0 / 10
可复现性3.0 / 10

一句话定性

这是一篇“思路有点意思但执行彻底摆烂”的探索性工作,连最基本的实验验证都没做全就敢投,属于典型的学术半成品。

创新点/贡献

核心提出“理解即重建”的代码LLM预训练新思路:尝试把静态代码库背后隐藏的规划、调试、迭代等中间agent轨迹通过多智能体模拟反向合成,再结合搜索优化保证轨迹与最终代码的逻辑一致性,初步验证了该思路对Llama-3-8B的代码、长上下文、agent能力有正向作用。

问题与水分

这篇工作的水分多到能养鱼:首先,合成的轨迹质量完全没有量化评估,没有人工校验准确率、没有和真实开发过程的贴合度对比,直接拿未经验证的合成数据训练就宣称有效,完全是“自嗨式实验”;其次实验设计简陋到离谱,只有单模型、单未明确 baseline,没有消融实验验证“反向轨迹”的核心贡献,也没有对比Git提交历史、代码执行trace等现成的、更易获取的中间信号方案,根本证明不了方法的优越性;最后合成数据的规模、过滤策略、多智能体配置、搜索优化的具体实现全部语焉不详,可复现性直接为0。

维度简评

  • 创新性6/10:反向合成开发轨迹的思路有一定区分度,但并非开创性突破,属于现有技术的组合延伸;
  • 严谨性3/10:无合成数据质量评估、无充分对照与消融,结论完全缺乏证据支撑;
  • 意义6/10:代码LLM长程推理的痛点确实重要,但方法有效性未得到充分验证,实际影响存疑;
  • 清晰度7/10:摘要逻辑通顺,问题、方法、结果的表述清晰易懂;
  • 可复现性3/10:无任何代码、数据集、实现细节的公开承诺,完全无法复现。

一句总评

本质是“画饼式”研究:想法戳中了代码LLM预训练的痛点,但连“自己做的饼能不能吃”都没验证就敢端上桌,离合格的可发表工作还差十万八千里,建议先补全基础实验再考虑投稿。