🔥 毒舌 GitHub
← 返回论文榜
GenExam: A Multidisciplinary Text-to-Image Exam
Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian et al.
54.40/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 54.4 · 引用加成 +0.0 · 12 次引用

💡 GenExam是首个多学科文生图考试基准,包含10学科1000样本与四级分类考试提示,通过细粒度评分点评估模型语义正确性与视觉合理性,揭示开源与闭源模型的显著能力差距

#文生图评估#考试型基准#多学科评测#开源闭源差距#text-to-image evaluation#exam-style benchmark#multidisciplinary assess#open-closed source gap

维度评分

创新性6.0 / 10
严谨性6.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性8.0 / 10

一句话定性:这是一份把文本大模型圈玩烂的“考试式评测”套路迁移到文生图领域的早期基准工作,方向正确但完成度粗糙,属于灌水潜力股。

创新点/贡献

首次将多学科考试框架引入文生图评测,打破了传统文生图 benchmark 只重美学对齐、简单语义匹配的局限,通过四级难度 taxonomy 和细粒度视觉评分点,把评测维度从“画得好看”提升到“能否结合知识推理生成正确图像”,同时开源了基准与代码,为领域提供了新的评测思路。

问题与水分

核心的“考试式评测”思想在文本领域已有MMLU、C-Eval等成熟工作,本质是跨领域换皮,无原创方法论创新;样本量严重注水:1000题分10个科目,单科目仅100题,覆盖的知识点与难度梯度完全撑不起“ multidisciplinary”的宣称,连学科交叉考察的影子都看不到;缺少评测基准的及格线要求:未公开评分者间一致性、评分标准信效度等关键信息,评测结果的可信度存疑;实验深度不足:仅做了模型间差距对比,无消融实验验证 taxonomy 和评分标准的有效性,也无错误归因分析,结论流于表面。

维度简评

novelty 5/10:范式迁移型增量工作,无底层创新;rigor 5/10:基础实验完备但关键信效度验证缺失,结论支撑不足;significance 6/10:方向切中痛点但当前完成度低,实际影响力有限;clarity 8/10:写作清晰逻辑通顺;reproducibility 6/10:承诺开源但关键复现信息未公开。

总评

这份工作目前只能算文生图评测领域的“草稿版基准”,连评测基准的及格线都没摸到,离成为领域标准工具还有至少两年的迭代空间,当前的质量完全不值得高看。