基于视觉语言模型的DexSim2Real：实现灵巧操作的零样本虚实迁移

Sat May 09 2026 00:00:00 GMT+0000 (Coordinated Universal Time) · Editorial Team estimated

原文链接: DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation

核心创新点

该研究提出了 DexSim2Real 框架，通过引入视觉语言大模型（VLM）作为视觉逼真度评估器，实现了对仿真参数的闭环优化。其三大核心技术支柱为：

FM-DR (视觉语言模型引导的域随机化)： 相比仅依赖文本的方案，引入直接的视觉反馈优化，极大提升了仿真环境与现实的对齐度。
TVCAP (触觉-视觉跨注意力策略)： 专门优化了触觉与视觉信息的融合机制，有效提升了零样本下的策略鲁棒性。
PSC (渐进式技能课程)： 利用大语言模型进行任务分解，配合难度调度器，完美适配接触密集型的复杂操作任务。

行业价值

在灵巧操作领域，虚实迁移（Sim-to-Real）一直被视为部署高难策略的“死亡之谷”。DexSim2Real 通过将迁移性能差距缩减至 8.3%，并实现高达 78.2% 的现实世界成功率，为人形机器人及工业灵巧手在复杂非结构化环境中的部署提供了关键技术支撑。其自动化程度高、泛化能力强的特点，将大幅降低机器人部署的调试成本。