DeepSeek赞不绝口「1秒换主角AI神器」，把哪吒2的主角变成你，只需1张图片+1段视频！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，用心写好每一篇文章！

项目主页-https://humanaigc.github.io/animate-anyone-2/

论文链接-https://arxiv.org/pdf/2502.06145

代码链接-未开源

体验链接-无

这个任务能做什么？--所谓的角色图像动画，即输入是一张角色图片和一段视频，输出是将输入图片中的角色应用在输入视频中的任务。当下的很多方法没有充分的考虑动画角色与环境之间的关系，没有很好的考虑固有的人机交互关系。

具体解决了什么问题？--为了解决这个问题，阿里通义实验室提出Animate Anyone 2算法，为需要生成高保真虚拟角色动画的从业者提供了突破性解决方案。它不仅能让角色动起来，还能智能感知环境与物体，确保角色与场景自然互动（如脚踩实地、手拿物体不穿模），并支持复杂动作（如舞蹈、运动）。

对哪些人有价值？--动画师、游戏开发者、虚拟偶像创作者可直接应用此技术提升画面真实感；AI研究者可借鉴其环境建模与物体交互的创新思路；广告/影视从业者则能高效制作无缝融入场景的角色动画。若你追求“以假乱真”的动画效果，这项研究值得关注！

01-Animate Anyone 2背景

角色图像动画任务的目标是利用参考角色图像和运动信号序列来合成动画视频序列。这些进步在电影制作、广告和虚拟角色应用等领域显示出巨大的潜力。

在最近的一些方法中，运动信号通常从不同的视频中提取，而角色的上下文环境则从静态图像中导出。这种设置引入了一些关键的局限性：动画角色与其环境之间的空间关系往往缺乏真实性，固有的人机交互被破坏。因此，大多数现有的方法主要局限于为简单的动作（例如，个人手势或舞蹈）制作动画，而没有充分捕捉角色与其周围环境之间复杂的空间和交互关系。这些限制严重阻碍了角色动画技术的进步。

虽然将角色动画与场景和对象集成的尝试很有前景，但是它在生成质量和适应性方面面临着重大挑战。例如，MovieCharacter通过级联多个算法的输出来合成角色视频，这会引入明显的伪影和不自然的视觉不连续性。AnchorCrafter主要关注人类对象操纵动画，具有相对简单的角色运动和对象外观。MIMO通过组合字符、预处理背景和遮挡来解决这一挑战，这些元素通过深度来解开。这种定义角色和环境之间关系的公式是次优的，限制了处理复杂交互的能力。

02-Animate Anyone 2算法简介

为了解决上面提到的局限性，这篇文章介绍了一个叫Animate Anyone 2的动画生成技术。以前的动画模型虽然能让角色动起来，但角色和周围环境（比如背景、物体）的互动看起来假，比如角色像“贴”在画面上，和场景不协调。这个新方法做了三点改进：

环境融合：不仅让角色动，还分析视频里的环境（比如去掉角色后的背景），让生成的角色更自然地融入场景，比如站在草地上时脚不会“浮空”。
物体互动：增加了一个“物体引导器”，专门处理角色和物体的互动细节，比如拿杯子时手指不会穿模。
复杂动作：用“姿势调制”技术让模型能处理更复杂的动作，比如跳舞时肢体运动更协调。

大量实验结果表明：新方法生成的动画更逼真，尤其在场景融合和物体互动上效果突出。不过，如果角色和物体互动区域太小（比如捏硬币），或者角色体型差异太大时，偶尔会有穿帮镜头。总的来说，这项技术让虚拟角色动画更接近真实世界的物理逻辑。

03-Animate Anyone 2算法应用场景

03.01-环境交互场景

上面的视频展示了该方法在生成具有上下文连贯环境交互的角色方面的卓越能力，其特征是无缝的角色场景集成和强大的角色对象交互。

03.02-动态运动场景

上面的视频展示了该方法在处理各种复杂动作方面表现出强大的能力，不仅能够确保角色的一致性，而且可以与环境背景保持合理的交互。

03.03-人物交互场景

上面的视频展示了该方法能够在角色之间产生互动，确保他们之间动作的合理性以及与周围环境的一致性。

04-Animate Anyone 2算法整体流程

上图展示了该框架的整体流程。详细的步骤如下所述：

首先，获取输入的图片和原视频，将图片输入胡到一个编码器E中；将视频帧分别输入到一个位姿模块、环境提取模块、人物移除模块中；
然后，将编码之后的图像输入到一个ReferenceNet模型中；
接着，将环境提取结果输入到一个编码器中，并将其结果与位姿模块的结果进行融合，将融合之后的特征送入一个DenoisingNet模型中；
接着，将任务移除结果送入一个编码器中，将输出结果送入一个Object Guider模块中；
接着，将ReferenceNet模型和Object Guider模块的输出结果融合到DenoisingNet模型中；
最后，通过一个解码器来生成新的人物动画视频结果。

05-Animate Anyone 2算法性能评估

05.01-主观效果性能评估

上面的视频展示了该方法与MIMO方法在相同输入下的视频生成效果。通过观察与分析，我们可以发现：该方法可以根据深度信息将视频分解为人类、背景和遮挡物，并将这些元素组合在一起从而生成新的角色视频。该方法表现出卓越的鲁棒性和更精细的细节保留。

上面的视频展示了该方法与Viggle V3在相同输入下的视频生成效果。通过观察与分析，我们可以发现：Viggle的输出展示了角色与环境的粗略混合，缺乏自然运动，未能捕捉到角色与周围环境之间的互动。相比之下，该方法的结果表现出更高的保真度。

05.02-客观效果性能评估

上表展示了该方法与多个SOTA的人像动画生成方法（MRAA、DisCo、MagicAnimate、Animate Anyone、Champ、UniAnimate）的客观指标评估结果。通过观察与分析，我们可以发现：与其它方法相比，该方法在多项评估指标上面有了大幅度的性能提升，与第二名之间拉开了较大的差距！

06-Animate Anyone 2算法效果展示

图6.1-Animate Anyone 2算法生成视频效果1

图6.2-Animate Anyone 2算法生成视频效果2

图6.3-Animate Anyone 2算法生成视频效果3

图6.4-Animate Anyone 2算法生成视频效果4

07-DeepSeek如何评价它？

08-文末彩蛋

“AI生成视频”与“AI生成图片”群限时开放，欢迎对SD、MJ、可灵AI、即梦AI、Runway Gen3、Sora等文生图、图生图、文生视频、图生视频感兴趣的朋友进群交流。群内禁止一起广告，一经发现，立马移除，并永久加入黑名单！

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们