Item: Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
Rating: 67.08
Author: GitHub Roast

← 返回论文榜

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

Zhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu et al.

67.08/100

📘 能读

合格之作 · 有可取之处

内容分 61.2 · 引用加成 +5.9 · 67 次引用

💡 本文指出现有基于DPO缓解LVLM幻觉的方法性能差异核心在于是否使用on-policy数据，提出OPA-DPO框架，仅用4.8k数据即在两个幻觉基准上超越此前16k数据训练的SOTA

#LVLM幻觉治理#DPO玄学破局#on-policy数据#专家反馈#高效对齐#LVLM Hallucination Fix#DPO Black-box Break#On-Policy Data#Expert Feedback#Efficient Alignment

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性7.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性8.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性

这篇是LVLM幻觉对齐领域少有的没在“堆数据堆trick”里打转的务实工作，直接戳破了现有DPO治幻觉方案“玄学涨点”的遮羞布。

创新点/贡献

首次系统揭示DPO缓解LVLM幻觉的性能波动核心变量是数据是否与初始策略on-policy，配套给出off-policy数据导致训练失效的KL散度定性解释，提出OPA-DPO框架：用专家反馈修正幻觉回复后做on-policy对齐，仅用4.8k数据就在AMBER、Object-Hal两个基准上分别涨13.26%、5.39%，超越此前16k数据训练的SOTA，数据效率拉满。

问题与水分

理论部分纯纯是行业共识的“学术凑数”：除了复述“KL散度大影响训练”这种入门结论，连个严格的泛化界、误差上界都懒得证，纯属硬凑理论贡献；专家反馈的标注成本只字不提，合着用专家标注当然效果好，普通研究组跟得起这成本？消融实验更是能省则省：没验证on-policy结论是否适配RLHF、KTO等其他对齐方法，也没测试无专家反馈时用模型生成修正回复的性能衰减，边界条件抠得比论文页数还薄。

维度简评

创新性7分：点出了领域长期被忽略的核心变量，不是换皮灌水；严谨性7分：实验对照充分但理论深度拉胯，消融不完备；意义8分：直接落地解决LVLM核心痛点，数据效率优势突出；清晰度9分：逻辑通顺无晦涩表述；可复现性8分：代码公开但标注规范等关键细节缺失。

一句总评

这是一篇“踩中真问题、给出真解法”的扎实应用型工作，虽然理论拉胯、消融抠门，但实际价值足够硬，补全理论和方法边界后顶会最佳提名级别的潜力。