Item: Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
Rating: 67.08
Author: GitHub Roast

Zhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu et al.

67.08/100

📘 能读

合格之作 · 有可取之处

内容分 61.2 · 引用加成 +5.9 · 67 次引用

💡 本文指出现有基于DPO缓解LVLM幻觉的方法性能差异核心在于是否使用on-policy数据，提出OPA-DPO框架，仅用4.8k数据即在两个幻觉基准上超越此前16k数据训练的SOTA

#LVLM幻觉治理#DPO玄学破局#on-policy数据#专家反馈#高效对齐#LVLM Hallucination Fix#DPO Black-box Break#On-Policy Data#Expert Feedback#Efficient Alignment

维度评分

创新性7.0 / 10

严谨性7.0 / 10

意义8.0 / 10

清晰度9.0 / 10

可复现性8.0 / 10

🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。