Item: GenExam: A Multidisciplinary Text-to-Image Exam
Rating: 54.4
Author: GitHub Roast

← 返回论文榜

GenExam: A Multidisciplinary Text-to-Image Exam

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian et al.

54.40/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 54.4 · 引用加成 +0.0 · 12 次引用

💡 GenExam是首个多学科文生图考试基准，包含10学科1000样本与四级分类考试提示，通过细粒度评分点评估模型语义正确性与视觉合理性，揭示开源与闭源模型的显著能力差距

#文生图评估#考试型基准#多学科评测#开源闭源差距#text-to-image evaluation#exam-style benchmark#multidisciplinary assess#open-closed source gap

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性6.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性8.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一份把文本大模型圈玩烂的“考试式评测”套路迁移到文生图领域的早期基准工作，方向正确但完成度粗糙，属于灌水潜力股。

创新点/贡献

首次将多学科考试框架引入文生图评测，打破了传统文生图 benchmark 只重美学对齐、简单语义匹配的局限，通过四级难度 taxonomy 和细粒度视觉评分点，把评测维度从“画得好看”提升到“能否结合知识推理生成正确图像”，同时开源了基准与代码，为领域提供了新的评测思路。

问题与水分

核心的“考试式评测”思想在文本领域已有MMLU、C-Eval等成熟工作，本质是跨领域换皮，无原创方法论创新；样本量严重注水：1000题分10个科目，单科目仅100题，覆盖的知识点与难度梯度完全撑不起“ multidisciplinary”的宣称，连学科交叉考察的影子都看不到；缺少评测基准的及格线要求：未公开评分者间一致性、评分标准信效度等关键信息，评测结果的可信度存疑；实验深度不足：仅做了模型间差距对比，无消融实验验证 taxonomy 和评分标准的有效性，也无错误归因分析，结论流于表面。

维度简评

novelty 5/10：范式迁移型增量工作，无底层创新；rigor 5/10：基础实验完备但关键信效度验证缺失，结论支撑不足；significance 6/10：方向切中痛点但当前完成度低，实际影响力有限；clarity 8/10：写作清晰逻辑通顺；reproducibility 6/10：承诺开源但关键复现信息未公开。

总评

这份工作目前只能算文生图评测领域的“草稿版基准”，连评测基准的及格线都没摸到，离成为领域标准工具还有至少两年的迭代空间，当前的质量完全不值得高看。