RynnVLA-001

互联网 2025-08-12 20:46:04

RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练，学习人类操作技能，并隐式迁移到机器人手臂的操控中。模型结合视频生成技术和变分自编码器（VAE），能生成连贯、平滑的动作序列，更接近人类动作。模型将“下一帧预测”和“下一动作预测”统一到一个 Transformer 架构中，显著提升机器人在复杂任务中的成功率和指令遵循能力。

*文章为作者独立观点，不代表爱思词典立场

本文由 Lexi Luna发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11109.html

RynnVLA-001 阿里巴巴阿里达摩院达摩院