🔥 毒舌 GitHub
← 返回论文榜
CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems
Junye Ji
59.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 59.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出首个锁定版本的Lean4 CSLib专用前提检索基准,通过系统审计揭示现有检索方法在该场景下的性能局限

#Lean4形式化验证#CSLib前提检索#基准构建#检索方法审计#Lean4 formal verificatio#CSLib premise retrieval#benchmark construction#retrieval method audit

维度评分

创新性6.0 / 10
严谨性8.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性9.0 / 10

一句话定性

这是一份完成度极高的CSLib领域前提检索基准与审计工作,老老实实填补了评估空白,但核心创新匮乏,自研的结构引导方法更是拉胯到连简单基线都打不过。

创新点/贡献

  1. 首个严格锁定CSLib v4.29.0与Lean 4.29.0版本的专用前提检索基准,固定工具链与代码库状态,彻底规避版本漂移导致的评估不可比问题;
  2. 系统审计了BM25、符号匹配、图启发式、自研CSG-Rerank等7类检索方法在严格标签策略下的表现,同时通过表达式探针验证代理标签的鲁棒性边界,为后续研究提供了可靠的评估标尺。

问题与水分

所谓“结构引导”的CSG-Rerank完全是标题党,仅在早期排序有微不足道的MRR提升,连Recall@10都打不过BM25+符号匹配的简单组合,结构信息根本没带来实质收益;整份工作无核心方法论创新,本质是造了测试集后把现有方法挨个测了一遍的负面结果整理,标题噱头大于实际,唯一优点是老老实实不宣称自己解决了证明生成问题,没撒谎。

维度简评

novelty 6/10:填补了领域特定基准的空白,但无核心思想突破,属于实用型增量工作;rigor 8/10:版本锁定、多基线对比、标签鲁棒性审计设计扎实,所有结论均有实验数据支撑,无过度宣称;significance 7/10:解决了CSLib相关定理证明研究无专用评估基准的痛点,对后续检索、证明生成工作有直接参考价值;clarity 8/10:表述清晰直白,负面结论也不藏着掖着,逻辑链条完整;reproducibility 9/10:版本、commit、任务集规模、审计方法均明确公开,复现门槛极低。

总评

这份工作属于“干脏活累活”的实用型论文,没有花架子,但也没有硬核创新,适合当领域工具引用,不适合当开创性研究的参考,顶多是给做CSLib相关研究的同学省了造轮子的功夫,顺便浇一盆“别瞎折腾 fancy 结构方法了”的冷水。