AI机器人走路不再像鬼飘，北大新模型让动作更自然

admin AI新闻 2026-06-21 9

AI机器人走路不再像鬼飘，北大新模型让动作更自然-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

AI机器人走路不再像鬼飘，北大新模型让动作更自然-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

把家庭光伏发电进行10kw成本分析, 它省钱且环保, 能开启你的生态能源之路！

此项研究是由北京大学计算机学院与AI 机器人公司共同完成的, 它于2026年6月以预印本的形式发布出来, 其论文编号是arXiv:2606.15142, 论文标题为《MotionVLA: Vision-Language-Action Model for Humanoid Motion》。热衷于此的读者能够依据该编号在arXiv平台去查阅完整的原文。

要是你曾经看过那些游戏里头的NPC, 或者科幻电影当中的机器人, 你或许就会留意到一种奇怪的违和的感觉, 他们行走的时候脚仿佛在地板之上滑动, 进行复杂动作之际四肢会莫名地震动, 或者动作做到一半突然“飘移”了方向。这并非是导演的差错, 更不是美工偷了懒, 而是当下人工智能在生成人体动作的时候所面临的一个根深蒂固的有着极大难度的技术方面的问题。北京大学之研究团队将这个问题摆到了明面之上, 并且提出了一套颇为精巧的解决办法——MotionVLA。

基于这样的朴素出发点展开研究: 给予机器一张场景图片, 以及一段对场景详尽的文字描述, 诸如“一个芭蕾舞演员伸展双臂向左转, 然后踮起脚尖做一系列芭蕾动作”, 使机器据此生成与之相对应的、逼真无误的人体运动序列。然而, 想要切实达至“逼真”这一目标, 难度远远超乎听起来的程度, 这可不是轻轻松松就能达成的呀！人体进行运动之时, 同时涵盖着两种截然不同的信息, 一种是慢悠悠的、关乎姿态的大框架信息, 诸如你的手臂大概处于哪一个位置, 你的身体朝着哪一个方向, 另一种是快速变化的、涉及运动力学的细节信息, 像你的脚落地之际有没有摩擦, 你的关节速度是否合乎情理。这就仿佛等于同时录制一首交响乐, 既需要录入缓慢流动的旋律主干线, 又要精准抓取鼓手每一次击打的节奏细微之处, 然而过去的方法, 却偏偏仅仅使用了一台麦克风去录制这两种信号。

一、一台麦克风录两种信号，问题出在哪里

想要明白该研究团队所发现的关键问题, 能够借助一个录音方面的比喻来贯通整个理解历程。人体动作数据, 于计算机内是一串数字序列。为了使得模型能够处理这些数字, 研究者一般会先将它们“编码”成离散的符号, 就如同把一段音乐转变成乐谱上的音符, 从而让语言模型能够逐个进行预测以及生成。这个编码过程, 在专业领域被称作“量化”又或者“词元化”, 能够被理解成把连续的声音信号翻译成为有限的文字符号。

诸多以往的方法, 皆是运用同一本“字典”, 去翻译全部的动作信号。这本共同使用的字典, 以专业术语来讲叫作“单码本”或者“共享码本”。问题便是出在了此处。研究团队借助一种名为“离散余弦变换”（DCT）的数学工具, 对人体动作数据展开了分析, 这个工具宛如一个棱镜, 能够将混合的光线分解成不同频率的颜色。他们察觉到了一个令人震惊的不对称情况, 描述关节位置的信号, 其是极为“低频”的, 恰似乐曲里那种缓慢变动的旋律, 仅仅只需5个低频成分, 便能够将整个信号93%的能量予以覆盖；然而描述关节速度的信号, 却是极为“高频”的, 如同鼓点中快速变换的节拍, 同样是那5个低频成分, 却仅仅只能覆盖其中37%的能量, 两者相差超过五十个百分点。

这究竟意味着啥呢? 当你运用同一本字典去翻译这两种信号之时, 字典会自然而然地朝着那个信号更为“主流”的方向倾斜——也就是围绕低频的姿态信息。高频的速度信息, 仿若乐谱裏的细微装饰性声音那样, 会被字典视为“噪音”悄然舍弃掉。其结果呈现为: 模型学会了怎样摆出一个个正确无误的姿态, 然而却全然丧失了对于运动进程里速度以及力学细节的感知。随着时间持续延长, 这般缺失便会逐渐积累形成显著的视觉问题, 包括脚就在地板上面毫无声响地滑动, 身体于转向之际莫名其妙地漂移, 动作的较长序列之中满是抖动以及失真的情况。

研究团队于论文之中, 展示出了一则直观的对照情形, 在那会儿, ViMoGen属于最为先进的同类办法中的一种。不过, 在其进行生成长序列动作的时候嘿, 运行至后半段那时分咧, 就发生显著的关节错位以及身体漂移这种状况！这些问题, 是被白色圆圈给标注出来的！然而, 他们所采用的新的方法, 打从开头至结尾全都与真实动作是高度相契合的。

二、拆开麦克风开云app官方最新下载地址，分频道录音——DSFT的设计逻辑

倘若采用一台麦克风去录制两种信号, 会出现相互干扰的情况, 那么很便于理解的一种想法便是, 将其拆分成两台麦克风, 进而分别进行录制。这也就是他们所提出的被称作“双流频域词元化器”（Dual-Stream Frequency-Domain Tokenizer, 简称为DSFT）的核心思想所在。

这种具体做法呈现为这样的情形。研究团队率先针对人体动作数据的每一个维度实施了细致入微的频率分析, 借助一个名为“低频比例”的指标去衡量每个维度的信号究竟有多“平滑”。最终获得这样的结果, 即发现所有维度都自然而然地划分成了两大阵营, 宛如棱镜将白光划分成冷暖两侧那般——其中一侧是关节位置以及旋转角度, 其信号处于平稳状态, 以低频占据主导；而另一侧则是关节速度以及根部运动, 其信号显得活跃, 以高频成为主体。在两个不同数据集, 也就是HumanML3D以及ViMoGen上, 这种分布均得到了验证, 这表明这属于人体运动数据的一个本质特征, 并非偶然现象。

于是, 他们将人体动作特征向量进行了一分为二的操作。以HumanML3D数据集作为例子, 263维的特征向量被拆解成了190维的“基础流”（Base Stream）, 以及73维的“物理流”（Phys Stream）。基础流涵盖了关节的空间位置以及旋转角度, 物理流包含着关节速度以及根部动态信息。两个流完全独立地开展频率压缩以及编码操作。

在压缩这个环节当中, 他们针对两个流采用了不一样的截断参数, 基础流仅仅保留前面那5个低频方面的成分, 也就是Kb等于5, 这是由于5个成分就能够把86%到93%的能量给覆盖住, 已然是足够精准地做到覆盖能量, 物理方面的流呢, 则是保留前面的25个成分, 即Kp等于25, 这是因为速度方面信号的能量是分布在更为宽泛的频率范围之内的, 所以就需要更多的成分才能够把大部分的信息给覆盖住, 而25个成分大概能够覆盖80%的物理流能量。这情形如同录制古典音乐之际, 录制旋律之时仅需具备普通品质的话筒, 而录制打击乐的时候却需要专门的高动态范围麦克风, 各自使用恰当的器具, 并非强行去进行统一。

完成压缩之后, 两个流各自经由经独立训练的BPE编码器, 这是诸如文字压缩的一种技术, 它可将数字序列变为更紧凑符号序列, 之后这两个流分别生成基础词元序列以及物理词元序列。在进行解码之时, 只要执行逆向操作就能还原完整的动作数据。

需加以留意的一点是, 由 DSFT 生成的词元序列, 相较于原本的单流方案而言, 更为紧凑。于 HumanML3D 之上, 单流方案平均每帧所需的词元数量为 15.21 个, 然而, DSFT 的 Kp = 25 配置情形下, 仅需要 11.24 个词元, 减少的数量近乎达到四分之一。更重要的是, DSFT在重建质量方面, 大幅度地超越了单流方案, 用于衡量生成动作分布与真实动作分布差异的rFID指标, 从0.9461急剧下降到0.1868, 这表明双流独立编码保留了更为完整的动作统计特性, 而单流编码由于高频信息的遗失, 致使生成的动作分布已经与真实数据偏离了相当远的距离。随着物理流里边保留的频率成分变多, 这里拿Kp来说它从十增长到三十, 此时重建质量持续变好改变, 然而序列长度同样跟着上升而增加, 研究团队最后挑选Kp等于二十五当作精度与效率之间最为恰当理想的平衡点。

三、让两条流汇入同一条河——MotionVLA的生成框架

具备了双流编码器之后, 接下来要达成的是使得语言模型可以领会以及生成这两类词元。研究团队挑选了阿里巴巴的Qwen3.5大语言模型当作骨干网络, 于其上构建起MotionVLA框架。

他们的设计思路, 延续了分频录音的比喻, 在生成序列时世界杯直播观看，应先生成基础流词元, 再生成物理流词元, 因为那物理流的信号, 依赖于姿态的基础结构, 就像你的脚怎么移动, 取决于你的腿处于什么姿态, 而模型在预测物理细节时, 能通过注意力机制“回头看”已生成的所有姿态词元, 进而做出更准确的物理预测。

详细来讲, 每一个动作样本都被呈现为这样一个统一的词元序列, 首先是一个起始标记, 紧接着是一连串的基础流词元, 之后是一个分隔标记, 随后是物理流词元, 最终是结束标记, 并且将整个序列看成一个连续的文本予以处理, 模型会依照从左到右的次序逐个对词元进行预测, 恰似撰写一篇文章那样。

研究团队为使Qwen3.5可以处理运动词元, 对其词汇表做了扩展。原始词汇表有248320个词, 他们增添了8195个运动专用词元, 其中基础流和物理流分别有4096个, 还加上3个结构标记。扩展后总词汇量达到256515个。

训练开展是划分成两个阶段来进行的, 第一阶段称作“词元嵌入预热”, 此阶段要冻结Qwen3.5所有层的参数, 仅仅去训练新添加的词元嵌入, 也就是要让模型明白新词元大概处于怎样的语义空间, 运用Adafactor优化器跑500步。第二阶段是“LoRA微调”, 在所有线性投影层部位加入LoRA适配器, 这是一种效率高的参数微调技术, 它只需调整少量额外参数就能使得大模型适应新任务, 与此同时要继续更新词元嵌入和输出层, 在8张H100显卡上跑10个周期。在整个训练进程当中, Qwen3.5的原始权重一直维持着冻结的状态, 它既留存了预训练语言模型的普遍理解本领, 又借助LoRA适配使得它掌握了运动生成这项全新技能。

在推理的此一阶段期间, 模型专门还引入了这么一个所谓具有特定意义的“相位感知约束”, 那就是, 在分隔标记出现以前的这么一段时间里, 模型仅仅只被允许去生成基础流词元, 而当分隔标记已然出现之后, 模型又仅仅只被允许去生成物理流词元。这么一种约束, 它能够防止模型在生成的整个进程当中, 把两种不同类型的流的词元给混淆在一起, 进而确保基础姿态总是会在物理细节产生之前就得以生成, 最终维持了整个设计所具有的层次结构。

在训练数据这块儿, 针对ViMoGen - 228K这个大规模多模态数据集, 模型运用了41,971条有着场景视频的野外视频动作数据, 还运用了170,942条来自光学捕捉的高质量室内动作数据, 前者能提供场景条件化的训练信号, 后者能提供高精度的动作监督。而对于HumanML3D, 仅仅使用23,384条带有文字描述的动作数据来进行纯文本驱动的训练。

四、和其他方法比一比，成绩单说明了什么

研究团队对MotionVLA进行了评测, 是在两个主要测试集上, 其中一个是MBench, 它是专门用来评测动作物理质量的细粒度基准, 这个基准包含450条测试样本, 会从八个维度打分, 分别是动作与条件的一致性、动作的泛化性、抖动程度、动态程度、脚部漂浮、脚部滑动、身体穿透以及姿态质量。还有一个是HumanML3D, 它处于文本驱动动作生成的领域范围之中, 属于该领域的标准测试集合, 其评测所涉及的指标包含几种, 分别是FID, 也就是生成分布和真实分布之间的差距, 还有R - Precision, 即文字与动作的匹配准确程度, 另外还涵盖多样性以及多模态性等状况。

于MBench之上, MotionVLA于“动作与条件一致性”此项最为关键核心的指标层面，获取到了0.55的极高分数, 相较于上一代最为强劲的基线ViMoGen 的0.53, 提升了3.8%。于“脚部滑动”这一能够直接展现物理真实性的指标方面, MotionVLA取得了0.0049的最低数值（此数值越低则越优）, 而且比ViMoGen-light的0.0051更为出色。这表明, 由MotionVLA所产生的动作, 足部于地面上的滑动感触显著更为微小, 视作是更为贴近真实态范的行走以及运动。于此同时, MotionVLA于“动作泛化性”方面位居第二, 于“抖动程度”层面同样处于第二, 全方位胜过了MDM、T2M-GPT、FineMoGen、MotionLCM、MoMask、MotionDiffuse、MotionCraft等着名方法。

值得一提的是世界杯2026直播平台，MotionVLA另外使用了场景图像用以作为输入条件, 然而对比方法全都只用了文字描述。这就是说, MotionVLA在条件更为丰富的情形下收获了更好的效果, 这本身便表明场景视觉信息的加入的确能够助力模型生成更加契合实际情境的动作。

于HumanML3D之上之际, 其结果同样是颇令人印象深刻的。MotionVLA于“多样性”此项指标之上乃是获取了最为贴近真实数据分布的得分（9.548, 真实数据为9.503）, 于“多模态性”（同一文字描述之下动作的变化丰富程度）之际取得了2.821, 此为所有生成方法当中最高的。R - Precision、FID与MM - Dist也皆是维持在了具备竞争力的水平之上。研究团队专门指明, 于HumanML3D上不存在场景图像输入, 所以性能增进主要源自DSFT自身的表示质量, 并非多模态条件化, 这表明双流编码的设计自身就能使模型学到更丰富、更多样化的动作表示。

研究团队开展了骨干网络规模的消融实验, 对0.8B参数量的Qwen3.5模型、2B参数量的Qwen3.5模型、4B参数量的Qwen3.5模型以及9B参数量的Qwen3.5模型进行了对比。结果显示, 从0.8B该模型到2B该模型的提升最为显著, 然而从2B该模型到4B该模型、再到9B该模型的提升越来越小, 在某些指标方面甚至几乎不存在变化。这表明在当前数据规模以及训练配方的情况下, 2B参数量的模型已然能够充分挖掘DSFT词元当中所包含的信息, 更大参数量的模型并不能够带来额外的收益, 所以2B参数量就被确定为默认配置, 在性能与效率之间达到了最佳的平衡。

五、让专家来打分——人类偏好研究的结果

量化指标确实有着重要性, 然而, 关于“看起来是不是如同真人在动”这个情况, 最终终究仍然得依靠人去判别。研究团队邀约了五位来自人体动作分析以及角色动画领域的专业评估人员, 针对100对动作开展了盲测比较, 每一对都含有一条由MotionVLA生成的动作以及一条由ViMoGen生成的动作, 从正面与侧面这两个角度同时予以展示, 每条展示时长为3秒, 按照20帧每秒的速率进行播放。评估人员并不清楚哪条动作是通过哪个方法生成的, 只需做出“左边更优”、“大致相同”或者“右边更优”的选择。

有五位专家, 他们共同完成了500次比较, 其结果是, MotionVLA在64%的比较当中被认定为更好, ViMoGen仅仅在14%的比较当中被认为更好, 剩余的22%被归结为差不多, 五位专家的偏好分布相当一致, 其中给出最低偏好率的一位专家也给予了MotionVLA为55%的偏好率, 这表明这并非是个别评估人的偏差现象, 而是一种稳定的整体感知优势。

六、从虚拟到现实——在机器人上跑起来

研究并非仅仅局限于数字层面, 研究团队将所生成动作投放至MuJoCo物理仿真器（一款广泛应用于机器人研究的物理引擎）当中施行可视化验证进程, 且切实部署于宇树科技的G1 EDU人形机器人之上, 给定如“这个人径直走向房间另一端如走过去”“这个人转身接着走到房间尽头似抵达终点过程这样”“这个人径直走随后转弯像改变行进方向那般”一段文字描述, MotionVLA生成运动词元, DSFT把它解码为关节角度轨迹, 经过关节映射之后在G1机器人上实时予以执行。三个示例, 均成功做完了文字所描述的动作, 进而验证了整套技术链路于真实硬件之上的可行性。

将其归结起来, 这项研究开展的事情能够以一句话进行概述, 那便是, 它发觉了一个先前未曾有人觉察到的具有根本性的问题, 即把快信号以及慢信号放置于同一本字典当中会致使快信号被悄然丢弃, 随后运用一个简洁明快的方案将其解决了, 此方案为给两种信号各自构建自身的字典。这个思路本身并非繁杂, 然而它所触碰的乃是整个动作生成领域长久以来始终存在的一个系统性的盲点, 与此同时, 其效果真切地呈现在那里, 具体包括更少的脚滑情况、更为丰富的动作变化、更契合场景的整体表现, 以及在真实机器人上运行所获得的验证结果。

当然, 这套系统当下存在限定区域, 研究团队如实予以撰写: 现今仅对2B这一副规模主体的骨干网络开展测试, 更大规模范畴内呈现的行为状况并不明晰；基础流与物理流的划分形式恒定, 针对全部动作类别以及序列幅度运用同一参数组, 或许并非适用于所有情形的最优解题作答选择；两道流的构建次序仍为固定模式, 未依据动作具体内容实施自适应调节。未来的研究导向涵盖规模更大的骨干网络、范围更广的数据集, 以及更为灵活的自适应分流与构建策略。

对于那些关注具身智能, 关心角色动画, 留意人机交互, 或者在意机器人控制的读者而言, 这一研究朝着一个值得深入思考的方向前行了几步: 有效运动表示, 并非仅仅只涉及压缩率以及重建误差, 它更与在离散化之前怎样构筑并敬重信号自身的物理特性相关联。有意愿深入钻研的读者, 能够借助 arXiv 编号 2606.15142 寻觅到整篇论文, 代码也已经放置到了 GitHub 的 AIGeeksGroup/MotionVLA 仓储区内。

---

Q&A

Q1：DSFT双流词元化器为什么能减少脚部滑动问题？

针对A的情况来说, 脚部出现滑动的本质, 是速度信号出现了失真现象导致的, 在于脚的速度在接地的瞬间并没有正确地归零。传统的单码本编码, 会将速度信号当作低频姿态信号的“噪音”给丢掉, 这就致使模型对于接地时刻的速度变化不敏感。而DSFT呢, 它把速度信号单独放置到物理流当中, 利用更宽的频率预算保留了速度的高频细节, 如此一来, 模型就能学到更准确的接地动态, 进而脚部滑动自然就减少了。

Q2: MotionVLA的主要区别是什么, 普通文本转动作方法的主要区别是什么, 它们之间的主要区别是什么?

A：最主要的区别存在两点, 其一, MotionVLA不但能够接受文字描述, 而且可同时接受场景图像当作输入, 所生成的动作将会考量环境上下文, 其二，MotionVLA运用了双流编码分别去处理慢变的姿态信息以及快变的速度信息, 然而普通方法却把两者混合于同一个编码空间中, 致使速度细节易于丢失, 在长序列里出现抖动与漂移现象。

Q3：MotionVLA需要多少计算资源才能运行？

仅在推理阶段, 只要一张具备80GB显存的H100 GPU就能运行, 所运用的是参数量达到20亿的Qwen3.5 - 2B骨干网络。而在训练阶段, 采用了8张H100, 总共进行了10个训练轮次。研究团队觉察到, 模型规模为2B时就已然能够充分发掘DSFT词元所蕴含的信息, 更大规模的模型（4B、9B）带来的额外提升成效颇为有限, 所以2B是性能与效率之间达成的最佳平衡点。

标签： AI 机器人动作生成自然语言处理北京大学

本文地址： http://aoersenchina.com/post/1895.html