Item: MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs
Rating: 58
Author: GitHub Roast

Jiarui Zhang, Mahyar Khayatkhoei, Prateek Chhikara, Filip Ilievski

58.00/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 58.0 · 引用加成 +0.0 · 暂无引用数据

💡 本文发现多模态大模型存在“能定位小细节但答错”的因果缺陷，提出零训练的内部注意力/梯度图干预方法，可显著提升其对小视觉细节的感知准确率。

#MLLM眼脑分离#零训练干预#注意力薅羊毛#小细节识别痛点#视觉问答优化#MLLM eye-brain separatio#training-free interventi#attention reuse#fine-grained perception #VQA improvement

维度评分

创新性6.0 / 10

严谨性7.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性8.0 / 10

🌸 夸夸

这个语气还没生成 —— 去重新评测一次即可生成。