🔥 毒舌 GitHub
← 返回论文榜
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang et al.
47.60/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出视觉中心的分层具身操作框架HiVLA,通过解耦高层VLM语义规划与低层流匹配DiT动作执行,解决端到端VLA微调丢失推理能力的问题,在仿真与真实场景的长时序、小物体操作任务上优于端到端SOTA

#VLA微调ptsd#分层具身操作#流匹配DiT#小物体抓取#端到端摆烂修复#VLA fine-tuning PTSD#hierarchical embodied ma#flow-matching DiT#small object grasping#end-to-end flaw fix

维度评分

创新性5.0 / 10
严谨性6.0 / 10
意义7.0 / 10
清晰度8.0 / 10
可复现性4.0 / 10

一句话定性:这是一篇戳中端到端VLA微调软肋的“补丁式”工程工作——端到端VLA微调就像让博士生去流水线拧螺丝,拧久了连微积分都不会了,这篇工作相当于给博士生配了个拧螺丝的学徒,自己只管想方案,离范式突破差十万八千里,但确实解决了落地真问题。

创新点/贡献

核心思路是把VLA拆成“会想的高层VLM”和“会做的低层流匹配DiT”,用级联交叉注意力融合全局语义、目标物体裁剪和技能信息,让低层只管执行不用管推理,绕开了端到端微调丢失推理能力的老问题,长时序、杂乱场景小物体操作的实验结果也佐证了思路的实用性。

问题与水分

首先,分层“规划-执行”解耦绝非原创,SayCan等前工作已经把这条路踩得半透,所谓的“视觉中心”只是把视觉 grounding 提前到规划层,没有本质范式创新;其次,摘要完全没提消融实验——那个级联交叉注意力、流匹配DiT到底贡献了多少性能?没有消融等于把创新点功劳全算在框架上,水分不小;另外可复现性几乎为零,既没提开源代码,也没说仿真环境、数据集、机器人硬件配置,读者根本没法验证结果;所谓“零样本推理保留”也只是高层VLM没被微调,分布外泛化能力完全没提,纯属过度宣称。

维度简评

创新性属于现有思路的合理延伸,中规中矩;严谨性被缺失的消融、泛化验证拖累,实验说服力不足;问题选得准,落地潜力大;表达清晰逻辑通顺;可复现性拉胯,没有开源计划基本等于白发。

一句总评

这是篇及格以上、优秀未满的工程型工作,解决了具体痛点,但别硬吹成范式突破,补全消融、开源代码的话倒是对社区有实际参考价值,现在这版只能算中等偏上的改进。