🔥 毒舌 GitHub
← 返回论文榜
MM-IFEngine: Towards Multimodal Instruction Following
Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang et al.
49.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 49.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向多模态指令遵循的MM-IFEngine数据生成pipeline,配套23k规模训练数据与专用评估基准,通过SFT/DPO微调可提升MLLM的指令遵循能力

#多模态大模型#指令遵循#数据生成#评估基准#微调优化#Multimodal LLM#Instruction Following#Data Generation#Evaluation Benchmark#Fine-tuning Optimization

维度评分

创新性5.0 / 10
严谨性4.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性9.0 / 10

一句话定性

这是一份瞄准多模态大模型指令遵循痛点的补位型社区工具工作,创新性平平,实验设计漏洞百出,离合格的高质量学术论文还差得远。

创新点/贡献

踩中了多模态IF领域“无高质量训练数据、无精准评估基准”的空白,本质是把现有文本域的指令生成、评估思路套用到多模态场景,提出了端到端的图像-指令对生成pipeline,产出了覆盖SFT/DPO双场景的23k训练数据,同时设计了同时约束输出逻辑和图像感知的MM-IFEval基准,配套规则+LLM judge的评估流程,验证了微调后模型在多个IF基准上的提升。

问题与水分

首当其冲的就是23k的数据量,连大模型的一次完整SFT epoch都喂不饱和,也好意思宣称“大规模”,数据多样性和任务覆盖度完全没说服力;其次实验缺斤短两到离谱:没有pipeline各模块的消融实验、没有和其他同类多模态数据生成方法的对照、未披露基座模型的具体能力和baseline的详细设定,所谓的“+10.2%提升”根本没法证明是数据/pipeline的功劳还是基座模型本身的能力;此外benchmark的“挑战性”完全是自说自话,没有和现有主流多模态基准做横向难度对比,所谓的“全面评估”也只是自嗨。

维度简评

创新性属于低质量增量,没有提出任何颠覆性的新思想或技术, novelty 严重不足;严谨性极差,缺失关键对照和消融实验,数据规模极小,结论完全缺乏证据支撑;意义层面切中了多模态IF的实际需求,开源资源对社区有一定参考价值,但学术贡献极低;写作逻辑清晰易懂,全链路开源的可复现性拉满,是这份工作唯一的亮点。

一句总评

典型的“社区工具型”工作,解决了点实际小痛点,但学术价值极低,实验设计漏洞百出,也就配当个开源数据集参考,离顶会论文的标准差了不止一个档次。