在线买世界杯平台阿里巴巴、东说念主大、清华联手打造"跳舞AI导演"

发布日期：2026-05-16 01:26 来源：未知作者：admin 浏览次数：

这项由阿里巴巴AMAP、中国东说念主民大学、清华大学、武汉大学及Malou Tech公司麇集完成的经营，以arXiv预印本花式发布于2025年12月（编号arXiv:2512.18181，最新版块更新于2026年5月），筹算发表于ACM期刊。感有趣有趣的读者不错通过该编号在arXiv上查阅完整论文。

一个普通东说念主想在抖音发一段跳舞视频，方法并不简单：选一首歌，然后不仅要我方想出配套的跳摆动作，还要有宽裕好的舞技，再花时刻录制和编订。那有莫得可能，只需要给电脑提供一张我方的相片加上一首歌，剩下的全由AI惩处——自动想好跳摆动作，生成一段画面流通、动作和解、外貌传神的跳舞视频？

这恰是这项经营要解决的问题。经营团队斥地了一套名为MACE-Dance的系统，它的职责方式有点像一场单干明确的专科发奋于赛：第一棒负责"编舞"，第二棒负责"饰演"，两棒协力交出一段令东说念主恬逸的跳舞视频。

这个标的的挑战远比遐想中复杂。一方面，跳摆动作必须恰当东说念主体通达礼貌，同期还要和音乐的节拍、作风、心思高度吻合；另一方面，生成的视频必须保握东说念主物外貌前后一致、画面不抖动、服装不变形、布景不穿帮。现存的时代要么只可生成莫得视觉成果的3D骨架动作，要么诚然能生成视频却动作简单重迭、东说念主物面部肮脏。两个标的各有长处，却又各有较着短板。MACE-Dance的中枢想路等于将两者串联起来，让各自专注我方最擅长的部分。

一、为什么要把一件事拆成两步来作念

认知MACE-Dance，滥觞要认知它为什么采用把"音乐→跳舞视频"这件事拆分红两个安谧任务来完成，而不是用一个端到端的神经汇注一步到位。

从音乐告成生成像素级视频，内容上要求模子同期学会两件完全不同的事情：一是认知己乐的节拍、旋律、作风，并将其周折为合理的东说念主体通达序列；二是将这些通达序列以传神的方式渲染到视频画面里，保握东说念主物的外貌、服装、光影成果一帧帧都前后一致。这两件事对模子来说是两种截然相背的能力，硬塞进一个模子里，时时会两端都作念不好。

更痛苦的是，若是告成学习音乐与视频像素之间的对应干系，模子很容易学到一些罪状的捷径——比如发现某类布景或服装时常和某种音乐作风同期出现，于是就把布景心思和音乐节拍绑定在全部，生成内容时出现各类尴尬其妙的关联。经营团队在尝试治愈Hallo2、EchoMimic-V3、WAN-S2V这几个现存模子时，都不雅察到了这种式样：哪怕作念了架构修改或专门微调，这些模子依然会把音乐特征和视觉细节罪状地关联起来，导致生成成果差强东说念主意。

经营团队最终采用了一个结构昭着的解决有筹画：在音乐和视频之间，强制引入一个"中间话语"——三维东说念主体通达参数序列，具体禁受的是学界庸碌使用的SMPL花式（不错认知为边幅东说念主体姿态的一套圭臬数学话语）。这个中间默示就像是一位导演在谨慎拍摄前写好的分镜剧本，明确章程了每一帧里演员的躯壳姿态、朝向和位置，将"跳舞创作"和"视觉呈现"透澈分开处理。

相较于另一种常见作念法——用二维关键点坐标作为中间默示——三维通达参数的上风特殊较着。二维坐标仅仅把三维动作投影到一个平面上，就像把一个立体雕琢拍成相片，深度信息就持久消释了，消释酿成的重要缺失也无法例复；而三维花式保留了完整的空间信息，不受视角影响，也不受拍摄距离的骚扰，对自消释和视角变化自然愈加鲁棒。经营团队在实验中考据了这个采用：在相同的框架下，用三维通达替换二维关键点，非论是在动作生成阶段照旧最终视频生成阶段，所有成见都有一致性擢升。

二、第一棒：懂音乐的"编舞众人"

负责第一棒任务的是经营团队遐想的Motion Expert（通达众人），它要作念的事情不错这么认知：播放一首音乐，它需要在脑海中"听懂"这首曲子，然后创作出一段与之匹配的跳摆动作序列，用SMPL花式抒发出来。

这个模块的中枢是一种叫作念"扩散模子"的生成方法。扩散模子的直观特殊简单：先向确凿的跳摆动作数据里延续加入噪声，直到变成一堆毫无道理的就地数；然后历练一个神经汇注，学会若何一步步把噪声"去除"，还原出有道理的动作序列。关键在于，这个去噪过程是在音乐信号的指引下进行的，这么生成的动作就会与音乐的节拍和作风对应起来。

在汇注结构的遐想上，经营团队作念出了一个有风趣的组合：把两种截然相背的汇注组件拼接在全部，永诀处理两种不同类型的信息依赖干系。

第一种组件叫作念BiMamba（双向Mamba）。Mamba是一种专门擅长处理贯穿序列的汇注结构，其中枢想想是用一个随时刻演化的荫藏景色来记取昔时的信息，肖似于东说念主在听音乐时会自然地记取前几末节的节律，从而判断下一步该何如走。"双向"意味着模子同期从时刻轴的正标的和反标的处理序列，既能看到"之前发生了什么"，也能看到"之后会发生什么"，这关于认知己乐的升沉和跳舞的流通性都特殊遑急。经营发现，若是只用单向Mamba，生成的跳舞会更容易退化成简单重迭的常见动作，艺术进展力较着下跌。

第二种组件是Transformer中的跨模态慎重力机制。这是一种能够捕捉"全局关联"的结构，它不错让跳舞生成的每一帧都去参考整段音乐的全体信息，而不仅仅局部片断。两种组件单干相连：BiMamba负责让动作序列在短时刻内保握流通连贯，Transformer负责让全体跳舞的作风和结构与整首音乐的情谊走向保握一致。

每个去噪块的具体职责历程是这么的：面前带噪声的动作序列先经过BiMamba捕捉其里面的局部动态特征，然后通过一个叫作念FiLM的调制层，将当赶赴噪的时刻步信息注入进来，接着通过Transformer慎重力模块，让动作特征去"盘问"音乐特征，整合全局的音乐语境，临了再经过一次FiLM调制强化时刻步信息。

这种架构带来的另一个遑急平允是：生成时整段序列一次性完成，不需要一帧一帧按步伐生成。一帧一帧生成的方式容易产生"滚雪球"问题——前一帧的小曲折会延续传递并放大，到背面就可能出现动作转眼飞出去的情况。全体生成幸免了这个问题，同期效力也大幅擢升，在FineDance圭臬测试集上，该模块每秒不错生成770帧动作，比同类方法快得多。

在历练战术上，经营团队还引入了一个叫作念"无指引历练"（GFT）的机制，替代了传统的"无分类器指引"（CFG）方法。传统CFG的作念法是：历练时正常历练，推理时同期运转两个版块（有要求的和无要求的），然后将两者的结果组合起来，2026世界杯滚球中国官网以此增强生成结果的质料。这突出于每次生成都要跑两遍模子，效力减半。GFT的翻新想路是：告成在历练阶段就把"质料截止旋钮"融入模子自己，引入一个叫作念β的温度参数，模子在历练时同期学习在不同β值下应该生成什么样的结果。推理时只需要跑一遍，通过退换β就不错截止生成结果的各类性和诚实度之间的均衡，既从简了一半狡计时刻，又幸免了历练与推理之间的散播偏差。实验涌现，比较传统CFG，GFT方法在生奏效力上擢升了约1.62倍，各项质料成见也有不同进程的擢升。

β参数的成果在消融实验中得到了昭着考据。当β设为1.0时，生成的跳舞各类性最高，但诚实度最差；当β设为0.5时，诚实度最好，但各类性反而低于确凿数据；β=0时系统告成崩溃。综合洽商后，经营团队将默许值设为0.75，在保握宽裕各类性的同期也兼顾了较高的还原质料。

除了圭臬的重建耗费，历练时还同期优化三个稀奇的耗费函数：重要位置耗费（要求前向通达学狡计出的重要坐标与确凿值接近）、速率耗费（要求相邻帧的重要速率变化平滑）以及脚部战斗耗费（要求脚部在应该着地的帧里不乱动）。这三个耗费合在全部，从不同角度保证了生成动作的物理合感性。

三、第二棒：让"画面"和"动作"圆善交融的视觉众人

Motion Expert生成三维动作序列之后，Appearance Expert（外不雅众人）接过第二棒，负责将这段动作"穿"到参考图片里的东说念主物身上，生成一段完整的视频。

经营团队采用在Wan-Animate这个苍劲的基础模子上进行矫正。Wan-Animate自己是一个通用型东说念主物动画模子，能够把柄姿态信号和参考图片生成视频，在工业界和学术界都受到了庸碌关爱。可是，将它告成用于跳舞视频生成成果并不睬想——跳舞中有大宗高速当作动作、全身配合、动态镜头变化，远比普通的东说念主物动画复杂。经营团队的解法是一个两阶段的专门化微调战术，永诀针对"动作准确度"和"视觉好意思不雅度"两个不同成见进行优化。

在此之前，还有一个关键的相连方法：若何将Motion Expert输出的SMPL三维参数革新成Wan-Animate能接受的二维关键点花式。经营团队引入了一个"投影器"模块，逐帧将SMPL参数革新为三维网格，用pyrender渲染器在固定正面视角下渲染出骨架图像，再用ViTPose关键点检测器提真金不怕火对应的二维关键点坐标。这个过程保留了三维通达建模的所有上风，同期与下流的视频生成模块无缝对接。

第一阶段叫作念"通达学阶段"。Wan-Animate的原始遐想中，对东说念主脸的处理力度普遍于对躯壳的处理——它为东说念主脸分拨了一个专门的跨慎重力分支，而躯壳的通达信号仅仅简单地以加法方式注入。这关于日常东说念主物动画可能够用，但关于动作幅度大、全身和解要求高的跳舞来说较着不及。在通达学阶段，经营团队只单独历练Body Adapter（躯壳适配器）这一个模块，其他所有参数全部冻结，不作念任何更变。这么作念的平允是：精准增强了躯壳通达信号的权重，却不会扰动模子照旧学到的其他能力，也不会引入稀奇的内存支出和历练不相识性。他们有益莫得为躯壳信号再添加一个跨慎重力分支，因为那样会和东说念主脸的慎重力分支产生竞争，导致特征浩瀚。

第二阶段叫作念"好意思学阶段"。在通达准确性照旧得到保险之后，经营团队再单独优化视觉质料，2026世界杯(中国)方法是在Wan-Animate的每一个DiT（扩散变换器）块里插入轻量级的LoRA适配器。LoRA是一种高效微调时代，其中枢想想是：不修改原始的大型权重矩阵，而是稀奇学习两个低秩小矩阵，二者相乘后作为对原始权重的增量叠加进去。这么参数目少许，却能灵验改变模子的举止。具体操作是在每个慎重力模块的查询、键、值、输出四个投影矩阵，以及前馈汇注中，永诀插入秩为32的LoRA适配器。所有这个词好意思学阶段只历练这些LoRA参数，其余全部冻结。这么作念的成果是在完全不破损通达截止能力的前提下，专注于改善皮肤纹理的细巧进程、服装和配饰的相识性、以及对各类复杂镜头通达（推拉摇移、手握抖动）的处理能力。

消融实验对两个阶段永诀进行了考据。去掉通达学阶段，视频中会出现较着的动作奉陪曲折和通达肮脏；去掉好意思学阶段，会出现较着的"鬼影"伪影式样，全体视觉质料大幅下跌。两阶段弗成偏废，相互补充。

四、专为这项任务打造的数据集和评测体系

一个新任务需要新的评测圭臬。现存的数据集和评测方法要么专注于三维动作质料，要么只关爱视频视觉成果，莫得一套同期兼顾两者的完整框架。经营团队因此同步构建了数据集和评测条约。

数据集被定名为MA-Data，包含7万段时长5至10秒的视频片断，总时长116小时，涵盖20余种跳舞作风，包括爵士、拉丁、东方民族舞等。数据来源分为两部分，各司其职。

第一部分是三维渲染数据，来源于FineDance——现在最大的由专科舞者录制的三维跳舞数据集。经营团队将其中的动作序列重定向到诬捏东说念主物模子上，渲染出正面视角的视频，再用滑动窗口战术切分出2万段5至10秒的片断，约28小时。这部分数据的特色是动作专科轨范，但视觉成果是狡计机图形渲染作风，不够写实。

第二部分是来自确凿汇注的数据，从抖音、YouTube等平台上高热度跳舞视频中汇注，共5万段，约88小时。这部分数据视觉成果确凿自然，但跳摆动作相对不够专科，更偏向文娱性。为了保证数据质料，经营团队遐想了一套多阶段清洗历程：滥觞用TransNet V2作念镜头鸿沟检测并按镜头切分，丢弃短于5秒的片断；然后用光流幅度阈值过滤险些莫得通达的静态视频；接着用ViTPose检测过滤偷换含多东说念主或东说念主物通达少许的片断；临了用滑动窗口加就地偏移战术最终切分红5至10秒的片断。

在评测成见的遐想上，经营团队引入了一套"通达-外不雅双维度"条约。通达维度从东说念主体通达学角度评估：通过ViTPose从视频中提真金不怕火二维关键点序列，狡计通达的动态特征和空间重要干系，永诀在"通达动态"和"几何空间"两个特征空间入网算FID（商酌生成动作与确凿动作散播的差距）和DIV（商酌生成动作的各类性）；同期用Beat Alignment Score（BAS）商酌动作节律与音乐节拍的对皆进程。外不雅维度则借用VBench视频生成基准中得当跳舞的子集，包括图像质料、好意思学质料、东说念主物一致性、布景一致性、通达平滑性以实时序相识性六款式标。

五、实验结果：三项任务全面当先

经营团队在三项安谧任务上永诀进行了对比实验，每项都取得了面前最优的结果。

在三维跳舞生成任务上，使用FineDance数据集，与FACT、MNET、Bailando、EDGE、Lodge、MEGA六个方法对比，Motion Expert在险些所有成见上都达到最优：通达动态FID为17.83，几何空间FID为25.09，两项各类性成见永诀为10.30和8.09，BAS为0.229，每秒生成帧数高达770。比较之下，此前的最优方法MEGA，FID最好也只可作念到50，远未达到这个水平。

在姿态驱动图像动画任务上，Appearance Expert与Animate-Anyone、Magic-Animate、Wan-Animate（作为基础模子）进行对比，在FVD、SSIM、LPIPS、PSNR四款式标上全面当先，FVD从Wan-Animate基础模子的332.82降至274.94，SSIM从0.707擢升至0.739。

在最终的音乐驱动跳舞视频生成任务上，与两类基准方法对比——第一类是将EDGE、Lodge、MEGA三种三维跳舞生成方法串联Wan-Animate；第二类是告成用于东说念主物视频生成的Hallo2、WAN-S2V、EchoMimic-V3。MACE-Dance在通达维度的所有五款式标和外不雅维度的六款式标中，大多数都名按序一，在BAS（0.523）和几何FID（0.28）上的擢升尤为隆起。

为了考据结构遐想的合感性，经营团队还对两个众人的孝敬永诀进行了"替换实验"：用EDGE替换Motion Expert，或用Wan-Animate替换Appearance Expert，单独更换纵情一个众人都会导致对应维度的成见较着下跌。这阐述两个众人的作用是互补的，短少任何一个都弗成替代。

此外，经营团队还将MACE-Dance与面前最强的通用视频大模子CogVideoX1.5-5B和WAN2.2-5B进行了对比。WAN2.2-5B诚然在好意思学质料单项上略高于MACE-Dance（53.22对51.79），但在东说念主物一致性、FID和BAS三款式标上均逊色。CogVideoX1.5-5B全体进展更弱，生成的动作幅度小、有肮脏感。从视觉对比来看，WAN2.2-5B生成的视频动作幅度大但东说念主物身份前后不一致，MACE-Dance则在两方面取得了更好的均衡。

六、用户经营和评测灵验性考据

单纯的量化成见有时偶然能响应确凿的用户体验，经营团队因此还组织了一项用户经营。他们招募了40位有跳舞布景的参与者（包括本科生和经营生），让他们对5个方法就地步伐生成的视频进行偏好投票，评估维度包括跳舞同步性、跳舞质料、跳舞创意、感知质料、时序一致性和身份一致性六个方面。

在所有六个维度上，MACE-Dance都取得了最高的偏好比例，其中跳舞质料和跳舞同步性两项跨越了60%的投票，身份一致性达到50%，其余维度均在56%以上。这些结果与量化成见高度吻合，证明了评测条约遐想的灵验性。

七、Motion Expert还能作念什么：通达编订功能

除了从重生成完整的跳舞序列，Motion Expert还内置了一套"蒙版去噪"机制，支握在推理阶段对已有动作序列进行局部编订，而不需要从新历练。

这个机制的道理肖似于图像诞生：给定一段部分已知的动作序列和一个二值蒙版（记号哪些位置是已知的、哪些是需要补全的），在每个去噪时刻步里，将已知部分替换回面前时刻步对应的噪声版块，让模子只对未知部分进行生成。这么生成的未知部分会自然地与已知部分保握时序平滑、物理合理和音乐一致。

这套机制不错支握三种实用的编订模式。时序补全模式不错保留序列开始和终结，生成中间缺失的过渡段落；重要级编订模式不错固定上半身动作，让模子补全下半身，或反之；轨迹指引模式不错指定根节点的迁移轨迹，让模子生成一段在空间中按照给定旅途迁移的完整跳舞。这三种模式不需要任何稀奇历练，与DDIM推理历程完全兼容。

另一个值得一提的特色是：由于Motion Expert的输出是圭臬的三维通达参数花式，不错告成接入现存的脚色绑定和动作重定向历程，用于CG动画制作、VR诬捏东说念主截止、游戏脚色驱动等场景，大幅拓展了这套系统的施行专揽规模。

八、长序列生成与跨作风泛化

在跨作风泛化方面，经营团队对维吾尔族舞、敦煌舞、傣族舞、K-Pop和Popping五种作风进行了可视化展示，每种作风都呈现出较着不同的通达特征：维吾尔族舞以细小贯穿的上身旋转和丰富的手臂轨迹为主；敦煌舞呈现出相识的下盘复旧配合优雅的圆弧手臂；傣族舞强调柔滑流动的腕部和肘部动作；K-Pop展现出昭着的节律切换和对称性姿势；Popping则以爆发性的局部拒绝动作和断奏感为中枢。

在长序列生成方面，一首完整的音乐平素握续30秒到5分钟，这对任何生成系统都是一大挑战。MACE-Dance通过两个层面的遐想来唐突这个问题。在通达生成层面，BiMamba的景色空间递归机制自然具备超出历练长度的外推能力，历练时只用8秒序列，推理时不错生成34秒以上的序列，Mamba的荫藏景色充任了时刻记挂，将短期动态传播到更长的时刻维度。在视频渲染层面，禁受了"发奋于渲染"战术：每一段生成时同期参考三个不断——Motion Expert提供的全局一致二维姿态序列（作为实足几何参考），上一段末帧（保证外不雅贯穿性），以及固定不变的参考图片（保证身份一致性）。三重不断共同防护了罪状积存，幸免了东说念主物渐渐"变脸"或布景渐渐"漂移"的问题。

说到底，MACE-Dance作念的事情不错用一句话详细：把音乐驱动跳舞视频生成这件看起来特殊复杂的事情，通过聪敏的任务拆分和专科化遐想，变成了两个相对简单的问题的串联解法。第一个众人专注于"何如跳"，第二个众人专注于"跳出来的东说念主长什么样"，两者之间用一套圭臬的三维通达参数花式作为通用接口，各自安谧优化，麇集输出。

这对普通东说念主意味着什么？大概不久的未来，果然只需要一张相片加一首歌，就能生成一段我方"在跳舞"的视频，不管是民族舞、K-Pop照旧街舞，系统都能生成作风合适、动作流通、东说念主物传神的成片，而不需要任何跳舞基础。自然，这项时代也带来了值得精致对待的伦理问题——用他东说念主相片生成视频需要明确的授权，历练数据中存在的文化和审好意思偏见也需要握续关爱。

对经营感有趣有趣的读者，不错通过arXiv编号2512.18181找到完整论文，代码也已在GitHub上洞开（款式地址为AMAP-ML/MACE-Dance）。

Q&A

Q1：MACE-Dance生成跳舞视频需要提供什么输入？

A：MACE-Dance只需要两个输入：一张参考东说念主物图片和一段音乐。系统会自动把柄音乐作风和节拍生成对应的跳摆动作，再将动作"套"在参考图片里的东说念主物身上，最终输出一段完整的跳舞视频，不需要用户我方遐想任何动作。

Q2：MACE-Dance使用的三维通达参数和普通的姿态骨架有什么区别？

A：普通的二维姿态骨架只记载重要在画面中的平面坐标，会丢失深度信息，消释时重要也会消释。MACE-Dance使用的SMPL三维通达参数保留了完整的空间位置、躯壳朝向和深度信息，不受拍摄角度影响，对自消释也更鲁棒，提供的监督信号更相识，最终身成的通达质料和视频一致性都更好。

Q3：MACE-Dance支握对已有跳摆动作进行修改吗？

篮球比赛投注app(中国)官网

A：支握。Motion Expert内置了一套蒙版去噪机制，无需从新历练即可进行通达编订。不错固定已有片断的开始和终结自动补全中间过渡，也不错固定上半身让系统补全下半身动作在线买世界杯平台，还不错指定东说念主物迁移轨迹让系统生成对应的完整跳舞序列。

下一篇：下一篇：2026在线买世界杯中国区平台珠城虾香溢满城出行攻略请收好

2026在线买世界杯中国区平台

2026世界杯直播app

在线买世界杯平台 阿里巴巴、东说念主大、清华联手打造&quot;跳舞AI导演&quot;

在线买世界杯平台阿里巴巴、东说念主大、清华联手打造"跳舞AI导演"