🔥 毒舌 GitHub
← 返回论文榜
LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering
Beiming Liu, Zhizhuo Cui, Siteng Hu, Xiaohua Li et al.
34.00/100
💧
灌水嫌疑 · 价值存疑
内容分 34.0 · 引用加成 +0.0 · 暂无引用数据

💡 本文针对航空制造领域LLM易产生幻觉的风险,基于专业教材自动生成多正确答案多选题构建专项评测集,测试多款主流LLM的专业知识掌握情况,证实当前模型在该领域能力存在明显不足

#航空制造LLM摸底考#题库全自动生成#工业幻觉验证#领域评测凑数#落地前踩坑#aerospace LLM aptitude t#auto-generated question #industrial hallucination#domain evaluation filler#pre-deployment pitfall

维度评分

创新性3.0 / 10
严谨性4.0 / 10
意义5.0 / 10
清晰度7.0 / 10
可复现性3.0 / 10

一句话定性

这是一篇领域套壳的入门级LLM评测探索工作,相当于把通用大模型考试模板直接贴到航空制造专业课考场上,连考题校验都省略就急着出分。

创新点/贡献

首次把通用LLM评测框架迁移到航空制造高精度要求场景,基于专业教材自动生成多正确答案多选题,初步敲打了当前主流LLM在该领域的知识短板,算是给工业场景LLM落地踩了个小坑。

问题与水分

水分拉满:第一,题库构建完全黑箱——没提教材选的是哪几本、生成题目的prompt是什么、多选题的正确答案有没有人工专家校验,题库质量全靠LLM自嗨,考出来的分数根本不可信;第二,实验设计敷衍到离谱,只报个总准确率,不对比不同难度题目表现、不试CoT/ few-shot等常规测试范式、不分析错误类型,得出了“LLM能力不行”的废话结论;第三,没有任何深度归因或提升方案,停留在“发现问题”的最表层,贡献几乎为零。

维度简评

创新性3分:纯领域换皮,无任何方法或思想创新;严谨性4分:题库和实验均无质量控制,结论缺乏证据支撑;意义5分:问题本身重要但工作深度完全配不上问题价值;清晰度7分:写作逻辑通顺,没有表达歧义;可复现性3分:核心实现细节(教材、prompt、测试设置)全部缺失,完全没法复现。

一句总评

这篇工作相当于工业LLM落地的“预习作业”,完成了从0到1的凑数式探索,离真正可用的专业评测体系差了十个普通NLP评测集,学术价值极其有限。