💡 本文提出面向多模态指令遵循的MM-IFEngine数据生成pipeline,配套23k规模训练数据与专用评估基准,通过SFT/DPO微调可提升MLLM的指令遵循能力
维度评分
一句话定性
这是一份瞄准多模态大模型指令遵循痛点的补位型社区工具工作,创新性平平,实验设计漏洞百出,离合格的高质量学术论文还差得远。
创新点/贡献
踩中了多模态IF领域“无高质量训练数据、无精准评估基准”的空白,本质是把现有文本域的指令生成、评估思路套用到多模态场景,提出了端到端的图像-指令对生成pipeline,产出了覆盖SFT/DPO双场景的23k训练数据,同时设计了同时约束输出逻辑和图像感知的MM-IFEval基准,配套规则+LLM judge的评估流程,验证了微调后模型在多个IF基准上的提升。
问题与水分
首当其冲的就是23k的数据量,连大模型的一次完整SFT epoch都喂不饱和,也好意思宣称“大规模”,数据多样性和任务覆盖度完全没说服力;其次实验缺斤短两到离谱:没有pipeline各模块的消融实验、没有和其他同类多模态数据生成方法的对照、未披露基座模型的具体能力和baseline的详细设定,所谓的“+10.2%提升”根本没法证明是数据/pipeline的功劳还是基座模型本身的能力;此外benchmark的“挑战性”完全是自说自话,没有和现有主流多模态基准做横向难度对比,所谓的“全面评估”也只是自嗨。
维度简评
创新性属于低质量增量,没有提出任何颠覆性的新思想或技术, novelty 严重不足;严谨性极差,缺失关键对照和消融实验,数据规模极小,结论完全缺乏证据支撑;意义层面切中了多模态IF的实际需求,开源资源对社区有一定参考价值,但学术贡献极低;写作逻辑清晰易懂,全链路开源的可复现性拉满,是这份工作唯一的亮点。
一句总评
典型的“社区工具型”工作,解决了点实际小痛点,但学术价值极低,实验设计漏洞百出,也就配当个开源数据集参考,离顶会论文的标准差了不止一个档次。