Item: MM-IFEngine: Towards Multimodal Instruction Following
Rating: 49.6
Author: GitHub Roast

← 返回论文榜

MM-IFEngine: Towards Multimodal Instruction Following

Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang et al.

49.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 49.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出面向多模态指令遵循的MM-IFEngine数据生成pipeline，配套23k规模训练数据与专用评估基准，通过SFT/DPO微调可提升MLLM的指令遵循能力

#多模态大模型#指令遵循#数据生成#评估基准#微调优化#Multimodal LLM#Instruction Following#Data Generation#Evaluation Benchmark#Fine-tuning Optimization

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性4.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性9.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这是一份瞄准多模态大模型指令遵循痛点的补位型社区工具工作，创新性平平，实验设计漏洞百出，离合格的高质量学术论文还差得远。

创新点/贡献

踩中了多模态IF领域“无高质量训练数据、无精准评估基准”的空白，本质是把现有文本域的指令生成、评估思路套用到多模态场景，提出了端到端的图像-指令对生成pipeline，产出了覆盖SFT/DPO双场景的23k训练数据，同时设计了同时约束输出逻辑和图像感知的MM-IFEval基准，配套规则+LLM judge的评估流程，验证了微调后模型在多个IF基准上的提升。

问题与水分

首当其冲的就是23k的数据量，连大模型的一次完整SFT epoch都喂不饱和，也好意思宣称“大规模”，数据多样性和任务覆盖度完全没说服力；其次实验缺斤短两到离谱：没有pipeline各模块的消融实验、没有和其他同类多模态数据生成方法的对照、未披露基座模型的具体能力和baseline的详细设定，所谓的“+10.2%提升”根本没法证明是数据/pipeline的功劳还是基座模型本身的能力；此外benchmark的“挑战性”完全是自说自话，没有和现有主流多模态基准做横向难度对比，所谓的“全面评估”也只是自嗨。

维度简评

创新性属于低质量增量，没有提出任何颠覆性的新思想或技术， novelty 严重不足；严谨性极差，缺失关键对照和消融实验，数据规模极小，结论完全缺乏证据支撑；意义层面切中了多模态IF的实际需求，开源资源对社区有一定参考价值，但学术贡献极低；写作逻辑清晰易懂，全链路开源的可复现性拉满，是这份工作唯一的亮点。

一句总评

典型的“社区工具型”工作，解决了点实际小痛点，但学术价值极低，实验设计漏洞百出，也就配当个开源数据集参考，离顶会论文的标准差了不止一个档次。