🔥 毒舌 GitHub
← 返回论文榜
Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
Zhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu et al.
67.08/100
📘 能读
合格之作 · 有可取之处
内容分 61.2 · 引用加成 +5.9 · 67 次引用

💡 本文指出现有基于DPO缓解LVLM幻觉的方法性能差异核心在于是否使用on-policy数据,提出OPA-DPO框架,仅用4.8k数据即在两个幻觉基准上超越此前16k数据训练的SOTA

#LVLM幻觉治理#DPO玄学破局#on-policy数据#专家反馈#高效对齐#LVLM Hallucination Fix#DPO Black-box Break#On-Policy Data#Expert Feedback#Efficient Alignment

维度评分

创新性7.0 / 10
严谨性7.0 / 10
意义8.0 / 10
清晰度9.0 / 10
可复现性8.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。