Item: CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems
Rating: 59.6
Author: GitHub Roast

← 返回论文榜

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Junye Ji

59.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 59.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出首个锁定版本的Lean4 CSLib专用前提检索基准，通过系统审计揭示现有检索方法在该场景下的性能局限

#Lean4形式化验证#CSLib前提检索#基准构建#检索方法审计#Lean4 formal verificatio#CSLib premise retrieval#benchmark construction#retrieval method audit

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性8.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一份完成度极高的CSLib领域前提检索基准与审计工作，老老实实填补了评估空白，但核心创新匮乏，自研的结构引导方法更是拉胯到连简单基线都打不过。

创新点/贡献

首个严格锁定CSLib v4.29.0与Lean 4.29.0版本的专用前提检索基准，固定工具链与代码库状态，彻底规避版本漂移导致的评估不可比问题；
系统审计了BM25、符号匹配、图启发式、自研CSG-Rerank等7类检索方法在严格标签策略下的表现，同时通过表达式探针验证代理标签的鲁棒性边界，为后续研究提供了可靠的评估标尺。

问题与水分

所谓“结构引导”的CSG-Rerank完全是标题党，仅在早期排序有微不足道的MRR提升，连Recall@10都打不过BM25+符号匹配的简单组合，结构信息根本没带来实质收益；整份工作无核心方法论创新，本质是造了测试集后把现有方法挨个测了一遍的负面结果整理，标题噱头大于实际，唯一优点是老老实实不宣称自己解决了证明生成问题，没撒谎。

维度简评

novelty 6/10：填补了领域特定基准的空白，但无核心思想突破，属于实用型增量工作；rigor 8/10：版本锁定、多基线对比、标签鲁棒性审计设计扎实，所有结论均有实验数据支撑，无过度宣称；significance 7/10：解决了CSLib相关定理证明研究无专用评估基准的痛点，对后续检索、证明生成工作有直接参考价值；clarity 8/10：表述清晰直白，负面结论也不藏着掖着，逻辑链条完整；reproducibility 9/10：版本、commit、任务集规模、审计方法均明确公开，复现门槛极低。

总评

这份工作属于“干脏活累活”的实用型论文，没有花架子，但也没有硬核创新，适合当领域工具引用，不适合当开创性研究的参考，顶多是给做CSLib相关研究的同学省了造轮子的功夫，顺便浇一盆“别瞎折腾 fancy 结构方法了”的冷水。