Item: Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
Rating: 48
Author: GitHub Roast

← 返回论文榜

Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment

Zhixue Song, Boyan Han, Yiwei Wang, Chi Zhang

48.00/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 48.0 · 引用加成 +0.0 · 暂无引用数据

💡 本文发现多模态大模型处理低分辨率视觉压缩文本时安全对齐会失效，提出认知过载解释与解耦策略缓解该风险

#多模态安全#越狱攻击#视觉压缩#认知过载#对齐失效#multimodal safety#jailbreak attack#visual compression#cognitive overload#alignment failure

去评测另一篇 →

维度评分

创新性6.0 / 10

严谨性5.0 / 10

意义8.0 / 10

清晰度7.0 / 10

可复现性4.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

报告

这是一篇戳中视觉压缩范式安全盲区的半成品工作，idea有亮点但实验支撑严重不足。创新点在于首次把低分辨率视觉输入与多模态大模型越狱风险挂钩，提出“认知过载”的解释框架，还抛出了个简单的解耦缓解思路，算是补上了视觉压缩场景安全研究的空白，切入点比那些天天靠换prompt、堆对抗样本发越狱论文的灌水工作强不少。但水分和问题非常明显：实验细节基本没给全，没控制分辨率降低带来的OCR误差、特征失真等混淆变量，所谓“认知过载”的归因纯属脑补，连个注意力热力图、认知负荷的客观测量都没有，缓解策略的效果、适用范围全凭一张嘴说，过度宣称的味儿很冲。维度简评：创新性6分，有新颖性但远谈不上范式突破；严谨性5分，归因和对照实验都站不住脚；意义8分，对应实际部署的高风险场景；清晰度7分，摘要逻辑通顺；可复现性4分，无代码、数据集、实验细节，基本没法复现。总评：相当于发现了“低分辨率会让模型变傻到忘了安全规则”这个有趣现象，但既没证明是认知过载而不是别的因素，也没把缓解策略做扎实，属于典型的“发现了问题但没解决透”的中间态工作，离合格的高质量论文还差得远。