🔥 毒舌 GitHub
← 返回论文榜
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski
58.00/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 58.0 · 引用加成 +0.0 · 暂无引用数据

💡 本文发现多模态大模型存在“能定位小细节但答错”的因果缺陷,提出零训练的内部注意力/梯度图干预方法,可显著提升其对小视觉细节的感知准确率。

#MLLM眼脑分离#零训练干预#注意力薅羊毛#小细节识别痛点#视觉问答优化#MLLM eye-brain separatio#training-free interventi#attention reuse#fine-grained perception #VQA improvement

维度评分

创新性6.0 / 10
严谨性7.0 / 10
意义8.0 / 10
清晰度8.0 / 10
可复现性8.0 / 10

这个语气还没生成 —— 去重新评测一次 即可生成。