Item: CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems
Rating: 59.6
Author: GitHub Roast

← 返回论文榜

CSLibPremiseBench: Structure-Guided Premise Retrieval and Label Robustness for Lean 4 Computer-Science Theorems

Junye Ji

59.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 59.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出首个锁定版本的Lean4 CSLib专用前提检索基准，通过系统审计揭示现有检索方法在该场景下的性能局限

#Lean4形式化验证#CSLib前提检索#基准构建#检索方法审计#Lean4 formal verificatio#CSLib premise retrieval#benchmark construction#retrieval method audit

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性8.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性9.0 / 10

🌸 夸夸

🌶️ 辣评 🌸 夸夸

一句话定性

这是一份完成度极高的领域专用基准审计工作，精准填补了Lean 4计算机科学形式化库前提检索评估的长期空白，为相关定理证明工具开发提供了扎实的评估底座。

核心创新与贡献

最大贡献是构建了版本严格锁定、完全可复现的CSLib专用前提检索基准，明确了源可见代理标签的适用边界与局限性，系统横向对比了从传统BM25到结构引导重排序的7类主流方案，清晰揭示CSLib前提检索的核心影响因素，为后续研究提供了标准化评估框架，避免了非适配基准上的无效对比。

现存问题与水分

未提出突破性检索方法，提出的CSG-Rerank仅在小范围早期排序指标上有微弱提升，未对核心Recall@10产生稳定增益，整体定位为基准建设而非方法创新，创新性维度得分有限，无过度包装内容。

维度简评

创新性（6/10）：填补细分领域评估空白的常规基准工作，无颠覆性方法或范式贡献；
严谨性（8/10）：版本锁定严格、审计流程完整，搭配严格匹配策略与Lean环境探针实验，实验设计规范无漏洞；
重要性（7/10）：解决Lean 4 CS形式化生态缺乏专用评估基准的痛点，对相关工具开发有明确参考价值；
清晰度（8/10）：问题定义、实验设置、结果解读逻辑清晰，对基准定位、标签局限性表述坦诚；
可复现性（9/10）：完全公开构建流程、版本commit、任务集与候选集，实验透明，复现门槛极低。

一句总评

作为“基建型”领域支撑工作完成度拉满，为CSLib相关定理证明研究提供了不可多得的标准化评估工具，虽无方法层面突破性亮点，但扎实的基准建设价值已足以支撑其领域影响力。