Item: Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining
Rating: 39.6
Author: GitHub Roast

← 返回论文榜

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Zhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua et al.

39.60/100

💧 水

灌水嫌疑 · 价值存疑

内容分 39.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出通过多智能体模拟反向合成软件开发中间轨迹用于LLM预训练，宣称可提升模型长程推理与代码能力

#代码预训练画饼#轨迹合成#多智能体套娃#长程推理玄学#实验摆烂#code pre-training pie-in#trajectory synthesis#multi-agent nesting#long-horizon reasoning m#shoddy experiments

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性3.0 / 10

意义6.0 / 10

清晰度7.0 / 10

可复现性3.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇“思路有点意思但执行彻底摆烂”的探索性工作，连最基本的实验验证都没做全就敢投，属于典型的学术半成品。

创新点/贡献

核心提出“理解即重建”的代码LLM预训练新思路：尝试把静态代码库背后隐藏的规划、调试、迭代等中间agent轨迹通过多智能体模拟反向合成，再结合搜索优化保证轨迹与最终代码的逻辑一致性，初步验证了该思路对Llama-3-8B的代码、长上下文、agent能力有正向作用。

问题与水分

这篇工作的水分多到能养鱼：首先，合成的轨迹质量完全没有量化评估，没有人工校验准确率、没有和真实开发过程的贴合度对比，直接拿未经验证的合成数据训练就宣称有效，完全是“自嗨式实验”；其次实验设计简陋到离谱，只有单模型、单未明确 baseline，没有消融实验验证“反向轨迹”的核心贡献，也没有对比Git提交历史、代码执行trace等现成的、更易获取的中间信号方案，根本证明不了方法的优越性；最后合成数据的规模、过滤策略、多智能体配置、搜索优化的具体实现全部语焉不详，可复现性直接为0。

维度简评

创新性6/10：反向合成开发轨迹的思路有一定区分度，但并非开创性突破，属于现有技术的组合延伸；
严谨性3/10：无合成数据质量评估、无充分对照与消融，结论完全缺乏证据支撑；
意义6/10：代码LLM长程推理的痛点确实重要，但方法有效性未得到充分验证，实际影响存疑；
清晰度7/10：摘要逻辑通顺，问题、方法、结果的表述清晰易懂；
可复现性3/10：无任何代码、数据集、实现细节的公开承诺，完全无法复现。

一句总评

本质是“画饼式”研究：想法戳中了代码LLM预训练的痛点，但连“自己做的饼能不能吃”都没验证就敢端上桌，离合格的可发表工作还差十万八千里，建议先补全基础实验再考虑投稿。