Item: HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
Rating: 47.6
Author: GitHub Roast

← 返回论文榜

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang et al.

47.60/100

🫥 平庸

增量有限 · 存在感薄弱

内容分 47.6 · 引用加成 +0.0 · 暂无引用数据

💡 本文提出视觉中心的分层具身操作框架HiVLA，通过解耦高层VLM语义规划与低层流匹配DiT动作执行，解决端到端VLA微调丢失推理能力的问题，在仿真与真实场景的长时序、小物体操作任务上优于端到端SOTA

#VLA微调ptsd#分层具身操作#流匹配DiT#小物体抓取#端到端摆烂修复#VLA fine-tuning PTSD#hierarchical embodied ma#flow-matching DiT#small object grasping#end-to-end flaw fix

去评测另一篇 →

维度评分

创新性5.0 / 10

严谨性6.0 / 10

意义7.0 / 10

清晰度8.0 / 10

可复现性4.0 / 10

🌶️ 辣评

🌶️ 辣评 🌸 夸夸

一句话定性：这是一篇戳中端到端VLA微调软肋的“补丁式”工程工作——端到端VLA微调就像让博士生去流水线拧螺丝，拧久了连微积分都不会了，这篇工作相当于给博士生配了个拧螺丝的学徒，自己只管想方案，离范式突破差十万八千里，但确实解决了落地真问题。

创新点/贡献

核心思路是把VLA拆成“会想的高层VLM”和“会做的低层流匹配DiT”，用级联交叉注意力融合全局语义、目标物体裁剪和技能信息，让低层只管执行不用管推理，绕开了端到端微调丢失推理能力的老问题，长时序、杂乱场景小物体操作的实验结果也佐证了思路的实用性。

问题与水分

首先，分层“规划-执行”解耦绝非原创，SayCan等前工作已经把这条路踩得半透，所谓的“视觉中心”只是把视觉 grounding 提前到规划层，没有本质范式创新；其次，摘要完全没提消融实验——那个级联交叉注意力、流匹配DiT到底贡献了多少性能？没有消融等于把创新点功劳全算在框架上，水分不小；另外可复现性几乎为零，既没提开源代码，也没说仿真环境、数据集、机器人硬件配置，读者根本没法验证结果；所谓“零样本推理保留”也只是高层VLM没被微调，分布外泛化能力完全没提，纯属过度宣称。

维度简评

创新性属于现有思路的合理延伸，中规中矩；严谨性被缺失的消融、泛化验证拖累，实验说服力不足；问题选得准，落地潜力大；表达清晰逻辑通顺；可复现性拉胯，没有开源计划基本等于白发。

一句总评

这是篇及格以上、优秀未满的工程型工作，解决了具体痛点，但别硬吹成范式突破，补全消融、开源代码的话倒是对社区有实际参考价值，现在这版只能算中等偏上的改进。