Item: LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering
Rating: 34
Author: GitHub Roast

← 返回论文榜

LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering

Beiming Liu, Zhizhuo Cui, Siteng Hu, Xiaohua Li et al.

34.00/100

💧 水

灌水嫌疑 · 价值存疑

内容分 34.0 · 引用加成 +0.0 · 暂无引用数据

💡 本文针对航空制造领域LLM易产生幻觉的风险，基于专业教材自动生成多正确答案多选题构建专项评测集，测试多款主流LLM的专业知识掌握情况，证实当前模型在该领域能力存在明显不足

#航空制造LLM摸底考#题库全自动生成#工业幻觉验证#领域评测凑数#落地前踩坑#aerospace LLM aptitude t#auto-generated question #industrial hallucination#domain evaluation filler#pre-deployment pitfall

去评测另一篇 →

维度评分

创新性3.0 / 10

严谨性4.0 / 10

意义5.0 / 10

清晰度7.0 / 10

可复现性3.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一篇领域套壳的入门级LLM评测探索工作，相当于把通用大模型考试模板直接贴到航空制造专业课考场上，连考题校验都省略就急着出分。

创新点/贡献

首次把通用LLM评测框架迁移到航空制造高精度要求场景，基于专业教材自动生成多正确答案多选题，初步敲打了当前主流LLM在该领域的知识短板，算是给工业场景LLM落地踩了个小坑。

问题与水分

水分拉满：第一，题库构建完全黑箱——没提教材选的是哪几本、生成题目的prompt是什么、多选题的正确答案有没有人工专家校验，题库质量全靠LLM自嗨，考出来的分数根本不可信；第二，实验设计敷衍到离谱，只报个总准确率，不对比不同难度题目表现、不试CoT/ few-shot等常规测试范式、不分析错误类型，得出了“LLM能力不行”的废话结论；第三，没有任何深度归因或提升方案，停留在“发现问题”的最表层，贡献几乎为零。

维度简评

创新性3分：纯领域换皮，无任何方法或思想创新；严谨性4分：题库和实验均无质量控制，结论缺乏证据支撑；意义5分：问题本身重要但工作深度完全配不上问题价值；清晰度7分：写作逻辑通顺，没有表达歧义；可复现性3分：核心实现细节（教材、prompt、测试设置）全部缺失，完全没法复现。

一句总评

这篇工作相当于工业LLM落地的“预习作业”，完成了从0到1的凑数式探索，离真正可用的专业评测体系差了十个普通NLP评测集，学术价值极其有限。