Item: Knowledge Index of Noah's Ark
Rating: 54.4
Author: GitHub Roast

← 返回论文榜

Knowledge Index of Noah's Ark

Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou et al.

54.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 54.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出细粒度学科知识基准KINA，通过覆盖度贪心近似保证学科代表性、证明tournament激励优于扁平标注付费，评估42个模型揭示现有LLM知识能力仍有较大提升空间

#LLM知识评估#细粒度基准#标注激励机制#理论保证#排序稳定性#LLM Knowledge Evaluation#Fine-grained Benchmark#Annotation Incentive#Theoretical Guarantee#Ranking Stability

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性6.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性4.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一篇踩中LLM评估领域核心痛点的扎实工作，理论贡献和实证设计均有亮点，但可复现性短板和理论验证缺位拉低了上限，离顶会硬标准还差临门一脚。

创新点/贡献

跳出现有知识benchmark“堆题求规模”的灌水惯性，首次将学科代表性形式化为覆盖优化问题，给出(1-1/e)的贪心近似保证；从机制设计角度证明tournament激励对扁平标注付费的弱占优，给标注环节付费规则提供了理论依据；构建的KINA基准覆盖261个细化学科，实验揭示现有模型的tiered能力分层、工具增强增益差异，还主动报告bootstrap排序稳定性，克制benchmark排名的过度解读，比那些只报top1分数的同类工作诚实太多。

问题与水分

理论保证的“代理覆盖度”和实际学科总体代表性的gap完全没有实证验证，相当于给了个理论上自洽但实际效果未知的纸面最优解；标注激励定理只有纯理论推导，连最基本的标注质量对照实验都没做，理论贡献直接悬空；最离谱的是全文连数据集、代码、专家elicitation流程的公开计划都没提，可复现性直接崩到地心，合着其他实验室都得靠脑洞复现你的工作？

维度简评

创新性7分：有机制设计和基准构建的双重新贡献，不是换皮灌水但离开创性还有距离；严谨性6分：理论证明扎实但缺核心实证验证，proxy有效性存疑；意义8分：直击现有知识benchmark三大公认痛点，对研究和工业评估都有实际指导价值；清晰度9分：逻辑清晰无冗余，表达专业准确，读abstract就能get全部核心贡献；可复现性4分：核心实证资产未提及公开，除理论部分外几乎无法复现。

一句总评

把激励机制的实证对照、proxy有效性验证补上，再公开数据和代码，这工作能打；现在的版本就是个“理论框架亮眼但落地缺腿”的半成品，离世界级硬核工作还差得远。