Item: SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
Rating: 60.8
Author: GitHub Roast

← 返回论文榜

SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction

Zhixiong Zhang, Yizhuo Li, Shuangrui Ding, Yuhang Zang et al.

60.80/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 60.8 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出SetCon框架，将开放-ended指代分割重构为集合级概念预测任务，通过层次化语义分解与LVLM生成的自然语言概念实现联合掩码集解码，在图像、视频多指代分割基准上取得SOTA

#LVLM终于知道多目标是#集合级分割#告别逐个输出#视频指代SOTA#大规模语义标注#LVLM finally knows multi#set-level segmentation#bye-bye sequential outpu#video referring SOTA#large-scale semantic ann

去评测另一篇 →

维度评分

创新性7.0 / 10

严谨性8.0 / 10

意义8.0 / 10

清晰度8.0 / 10

可复现性7.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

这是一篇治好了LVLM做指代分割“多目标逐个输出、毫无集合意识”顽疾的扎实工作，没有换皮灌水，实打实戳中了现有方法的痛点，给天天把special token换来换去就敢Claim SOTA的灌水文团队好好上了一课。

核心贡献：一是将开放指代分割重构为集合级概念预测任务，用自然语言概念替代专用分割token作为解码条件，从框架层面保证多目标的完整性与互斥性，且随着指代目标数量增加性能优势进一步扩大；二是设计层次化语义分解模块，先预测集合级范围再细化到子组，对齐不同粒度语义需求；三是构建23.6万样本的大规模层次语义标注数据集，验证了方法在视频detect-and-track范式下的迁移性，在7个视频指代基准上大幅刷新SOTA。水分与问题：abstract未提代码是否开源，可复现性打折扣；未讨论LVLM生成概念的噪声影响、层次分解各层级的贡献消融；刻意淡化了视频迁移依赖离线检测模块、非端到端的局限性，也未讨论LVLM标注带来的潜在偏差。维度简评：创新性7分，跳出“堆token”惯性，有新任务定义和框架，但核心仍基于现有LVLM延伸，未达范式级突破；严谨性8分，多基准大样本实验扎实，但缺局限性和误差讨论；意义8分，解决核心痛点，对LVLM-分割结合有明确指导价值；清晰度8分，逻辑链条完整；可复现性7分，数据集公开但代码情况未知。总评：比市面上90%“改个token就喊SOTA”的灌水文实在得多，是领域内少有的解决真问题的工作，补全细节后影响力会更高。