🔥 毒舌 GitHub
← 返回论文榜
Knowledge Index of Noah's Ark
Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou et al.
54.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 54.4 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出细粒度学科知识基准KINA,通过覆盖度贪心近似保证学科代表性、证明tournament激励优于扁平标注付费,评估42个模型揭示现有LLM知识能力仍有较大提升空间

#LLM知识评估#细粒度基准#标注激励机制#理论保证#排序稳定性#LLM Knowledge Evaluation#Fine-grained Benchmark#Annotation Incentive#Theoretical Guarantee#Ranking Stability

维度评分

创新性7.0 / 10
严谨性6.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性4.0 / 10

一句话定性:这是一篇踩中LLM评估领域核心痛点的扎实工作,理论贡献和实证设计均有亮点,但可复现性短板和理论验证缺位拉低了上限,离顶会硬标准还差临门一脚。

创新点/贡献

跳出现有知识benchmark“堆题求规模”的灌水惯性,首次将学科代表性形式化为覆盖优化问题,给出(1-1/e)的贪心近似保证;从机制设计角度证明tournament激励对扁平标注付费的弱占优,给标注环节付费规则提供了理论依据;构建的KINA基准覆盖261个细化学科,实验揭示现有模型的tiered能力分层、工具增强增益差异,还主动报告bootstrap排序稳定性,克制benchmark排名的过度解读,比那些只报top1分数的同类工作诚实太多。

问题与水分

理论保证的“代理覆盖度”和实际学科总体代表性的gap完全没有实证验证,相当于给了个理论上自洽但实际效果未知的纸面最优解;标注激励定理只有纯理论推导,连最基本的标注质量对照实验都没做,理论贡献直接悬空;最离谱的是全文连数据集、代码、专家elicitation流程的公开计划都没提,可复现性直接崩到地心,合着其他实验室都得靠脑洞复现你的工作?

维度简评

创新性7分:有机制设计和基准构建的双重新贡献,不是换皮灌水但离开创性还有距离;严谨性6分:理论证明扎实但缺核心实证验证,proxy有效性存疑;意义8分:直击现有知识benchmark三大公认痛点,对研究和工业评估都有实际指导价值;清晰度9分:逻辑清晰无冗余,表达专业准确,读abstract就能get全部核心贡献;可复现性4分:核心实证资产未提及公开,除理论部分外几乎无法复现。

一句总评

把激励机制的实证对照、proxy有效性验证补上,再公开数据和代码,这工作能打;现在的版本就是个“理论框架亮眼但落地缺腿”的半成品,离世界级硬核工作还差得远。