🔥 毒舌 GitHub
← 返回论文榜
SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
Zhixiong Zhang, Yizhuo Li, Shuangrui Ding, Yuhang Zang et al.
60.80/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 60.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出SetCon框架,将开放-ended指代分割重构为集合级概念预测任务,通过层次化语义分解与LVLM生成的自然语言概念实现联合掩码集解码,在图像、视频多指代分割基准上取得SOTA

#LVLM终于知道多目标是#集合级分割#告别逐个输出#视频指代SOTA#大规模语义标注#LVLM finally knows multi#set-level segmentation#bye-bye sequential outpu#video referring SOTA#large-scale semantic ann

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义8.0 / 10
清晰度8.0 / 10
可复现性7.0 / 10

这是一篇治好了LVLM做指代分割“多目标逐个输出、毫无集合意识”顽疾的扎实工作,没有换皮灌水,实打实戳中了现有方法的痛点,给天天把special token换来换去就敢Claim SOTA的灌水文团队好好上了一课。

核心贡献:一是将开放指代分割重构为集合级概念预测任务,用自然语言概念替代专用分割token作为解码条件,从框架层面保证多目标的完整性与互斥性,且随着指代目标数量增加性能优势进一步扩大;二是设计层次化语义分解模块,先预测集合级范围再细化到子组,对齐不同粒度语义需求;三是构建23.6万样本的大规模层次语义标注数据集,验证了方法在视频detect-and-track范式下的迁移性,在7个视频指代基准上大幅刷新SOTA。 水分与问题:abstract未提代码是否开源,可复现性打折扣;未讨论LVLM生成概念的噪声影响、层次分解各层级的贡献消融;刻意淡化了视频迁移依赖离线检测模块、非端到端的局限性,也未讨论LVLM标注带来的潜在偏差。 维度简评:创新性7分,跳出“堆token”惯性,有新任务定义和框架,但核心仍基于现有LVLM延伸,未达范式级突破;严谨性8分,多基准大样本实验扎实,但缺局限性和误差讨论;意义8分,解决核心痛点,对LVLM-分割结合有明确指导价值;清晰度8分,逻辑链条完整;可复现性7分,数据集公开但代码情况未知。 总评:比市面上90%“改个token就喊SOTA”的灌水文实在得多,是领域内少有的解决真问题的工作,补全细节后影响力会更高。