Meta给AI视频装上「运动神经」| 轻松拿捏“高难度运动”,不换架构不加数据,即插即用!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



 虽然当前基于扩散模型的视频生成模型已经取得了突破性的进展,但是这些模型往往无法准确描绘运动、物理和动态交互等情况。我相信玩过视频生成模型的朋友们都深有感触。然而,在真实的场景中,用户通常会有一些生成这类场景的刚需。Meta带有来啃这块硬骨头,Meta的研究院提出了VideoJAM,这是一种新颖的框架,通过鼓励模型学习关节外观运动表示,在视频生成器之前灌输有效的运动。该框架可以应用于任何视频模型,只需进行最小的调整,不需要对训练数据或模型的尺度进行修改。VideoJAM在运动连贯性方面取得了最先进的性能,超越了竞争激烈的专有型号可灵AI和Runway Gen3!



项目主页-https://hila-chefer.github.io/videojam-paper.github.io/

论文链接-https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf





01-VideoJAM背景简介

    基于扩散模型的视频生成方法在制作高质量剪辑方面取得了显著成效。然而,尽管其生成的视频的视觉质量不断提高,但这些模型往往无法准确描绘运动、物理和动态交互。

    当将视频生成模型应用到一些具有挑战性的动作生成任务重,如体操运动(如下图b中的车轮)时,这个人通常会表现出严重的变形,例如出现额外的肢体等情况。在其它情况下,视频中的人表现出与基础物理学相矛盾的行为,例如物体穿过其他固体物体(例如下图c中的呼啦圈穿过一个女人)。

    另一个例子是旋转运动,其中模型难以复制简单的重复运动模式(例如,下图d中的旋转器)。有趣的是,即使对于模型训练数据中能够很好地表示的基本运动类型(例如图a中的慢跑),这些问题也很突出,这表明数据和规模可能不是导致视频模型中时间问题的唯一因素。

02-VideoJAM算法简介

    尽管视频生成模型已经取得了巨大的进步,但其仍然难以捕捉现实世界的运动、动力学和物理。作者惊奇的发现,这种局限性源于传统的像素重建目标,该目标以牺牲运动连贯性为代价,使模型偏向于外观保真度。
    为了解决这个问题,Meta的研究院提出了VideoJAM,这是一种新颖的框架,通过鼓励模型学习关节外观运动表示,在视频生成器之前灌输有效的运动。VideoJAM由两个互补的单元组成。在训练过程中扩展了目标,从单个学习表示中预测生成的像素及其相应的运动。在推理过程中引入了内部引导,这是一种通过利用模型自身的运动预测作为动态引导信号,将生成转向相干运动的机制。
    值得注意的是,该框架可以应用于任何视频模型,只需进行最小的调整,不需要对训练数据或模型的尺度进行修改。VideoJAM在运动连贯性方面取得了最先进的性能,超越了竞争激烈的专有型号,同时也增强了一些之前模型的视觉质量。这些发现强调,外观和运动可以互补,当有效地整合时,可以提高视频生成的视觉质量和连贯性。
03-VideoJAM算法应用场景
03.01-复杂运动场景1
    如上面的视频所示,有滑滑板的、有跳街舞的、有滑旱冰的、有跳芭蕾的,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!
03.02-复杂运动场景2

    如上面的视频所示,有滑滑板的、有跳舞的、有水上冲浪的、有吃苹果的、有狗熊玩自行车等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!

03.03-复杂运动场景3

    如上面的视频所示,有打拳的、有游泳的、有跳芭蕾的、有运动的、有切菜等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!

03.04-复杂运动场景4

    如上面的视频所示,有跑步的、有滑雪的、有跳绳的、有滑旱冰的、有跑步的等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!

04-VideoJAM算法整体流程

    上图展示了VideoJAM算法的整体框架。VideoJAM由两个单元构成;

a) 训练阶段。给定一个输入视频x1及其运动表示d1,这两个信号都被噪声化,并使用线性层W+in嵌入到一个单一的联合潜在表示中。扩散模型处理输入,两个线性投影层根据联合表示来预测外观和运动。

b) 推理阶段,作者提出了内部引导策略,其中模型自己的噪声运动预测用于指导每一步的视频预测。
05-VideoJAM算法实现细节
05.01-生成步骤对运动的影响

    为了验证生成的步骤t≤60对于确定运动确实有意义,作者进行了SDEdit实验,在该实验中,作者将视频噪声化到不同的时间步长(20、60、80),并在给定噪声视频的情况下继续生成。在上中,作者使用RAFT估计光流,为每个视频显示了一个代表性的外观帧和两个运动帧。

    通过观察与分析,我们可以发现:所生成视频的粗略运动和结构是在步骤20和60之间确定的,因为从步骤20开始的生成改变了整个视频,而从步骤60开始的生成保持了输入视频的粗略动作和结构,这表明它们已经由输入噪声视频确定了。
05.02-模型实现细节

    VideoJAM-4B使用32个A100 GPU进行了微调,批处理大小为32,在256×256的空间分辨率下进行了50000次迭代。它有3072个潜在维度和32个注意力块(与基础模型相同)。

    VideoJAM-30B使用256个A100 GPU进行了微调,批处理大小为256,在256×256的空间分辨率下进行了35000次迭代。它的潜在维度为6144和48个注意力块(与基础模型相同)。每个注意力块由一个在所有视频令牌之间执行时空注意力的自我注意力层和一个整合文本的交叉注意力层构成。这两个模型都使用流匹配范式以5e-6的固定学习率进行训练。

06-VideoJAM算法性能评估

06.01-主观效果性能评估

    上面的视频展示了VideoJAM和它微调的基础模型DiT-30B之间的定性比较结果。通过仔细观察与分析,我们可以发现:与DiT-30B相比,VideoJAN模型生成的视频更加惊艳一些、与输入的文本的一致性更高、更符合用户对运动场景的视频需求。

    上面的视频展示了该算法与多个SOTA的基线模型(Sora、Kling和Runway Gen3)在相同的文本提示下的运行视频生成效果。通过仔细观察与分析,我们可以发现:与其它方法相比,VideoJAM不仅能够生成运动一致性更好地视频,而且可以更好的满足用户的需求。

06.02-客观效果性能评估

    上表展示了VideoJAM-4B与之前的一些方法(CogVideo2B、CogVideo5B)在VideoJAM-Bench基准上面的比较结果。通过仔细观察与分析,我们可以发现:VideoJAM在运动指标方面有了显著的提升,远超其它方法。
    上表展示了VideoJAM-30B模型与之前的一些SOTA方法(CogVideo5B、Runway Gen3、Mochi、Sora、Kling 1.5)在VideoJAM-Bench基准上面的比较结果。通过仔细观察与分析,我们可以发现:VideoJAM在外观上不如可灵AI,而在运动方面远超可灵AI、甚至超越了Runway Gen3!如果再换一个更强的基线版本,效果可想而知。
07-VideoJAM算法效果展示

图7.1-VideoJAM算法视频生成效果展示1

7.2-VideoJAM算法视频生成果展示2

7.3-VideoJAM算法视频生成果展示3




关注我,AI热点早知道,AI算法早精通,AI产品早上线!




禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们