LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering
Beiming Liu, Zhizhuo Cui, Siteng Hu, Xiaohua Li et al.
34.00/100
💧 水
灌水嫌疑 · 价值存疑
内容分 34.0 · 引用加成 +0.0 · 暂无引用数据
💡 本文针对航空制造领域LLM易产生幻觉的风险,基于专业教材自动生成多正确答案多选题构建专项评测集,测试多款主流LLM的专业知识掌握情况,证实当前模型在该领域能力存在明显不足
#航空制造LLM摸底考#题库全自动生成#工业幻觉验证#领域评测凑数#落地前踩坑#aerospace LLM aptitude t#auto-generated question #industrial hallucination#domain evaluation filler#pre-deployment pitfall
维度评分
创新性3.0 / 10
严谨性4.0 / 10
意义5.0 / 10
清晰度7.0 / 10
可复现性3.0 / 10
这个语气还没生成 —— 去重新评测一次 即可生成。