打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
“ 虽然当前基于扩散模型的视频生成模型已经取得了突破性的进展,但是这些模型往往无法准确描绘运动、物理和动态交互等情况。我相信玩过视频生成模型的朋友们都深有感触。然而,在真实的场景中,用户通常会有一些生成这类场景的刚需。Meta带有来啃这块硬骨头,Meta的研究院提出了VideoJAM,这是一种新颖的框架,通过鼓励模型学习关节外观运动表示,在视频生成器之前灌输有效的运动。该框架可以应用于任何视频模型,只需进行最小的调整,不需要对训练数据或模型的尺度进行修改。VideoJAM在运动连贯性方面取得了最先进的性能,超越了竞争激烈的专有型号可灵AI和Runway Gen3!”
项目主页-https://hila-chefer.github.io/videojam-paper.github.io/
论文链接-https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf
01-VideoJAM背景简介
基于扩散模型的视频生成方法在制作高质量剪辑方面取得了显著成效。然而,尽管其生成的视频的视觉质量不断提高,但这些模型往往无法准确描绘运动、物理和动态交互。
当将视频生成模型应用到一些具有挑战性的动作生成任务重,如体操运动(如下图b中的车轮)时,这个人通常会表现出严重的变形,例如出现额外的肢体等情况。在其它情况下,视频中的人表现出与基础物理学相矛盾的行为,例如物体穿过其他固体物体(例如下图c中的呼啦圈穿过一个女人)。
02-VideoJAM算法简介
如上面的视频所示,有滑滑板的、有跳舞的、有水上冲浪的、有吃苹果的、有狗熊玩自行车等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!
03.03-复杂运动场景3
如上面的视频所示,有打拳的、有游泳的、有跳芭蕾的、有运动的、有切菜等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!
如上面的视频所示,有跑步的、有滑雪的、有跳绳的、有滑旱冰的、有跑步的等,这都是一些比较复杂的运行场景。已有的一些视频生成模型是无法完成生成这种效果的,包括可灵1.5、Sora、Runway Gen3等,但是VideoJAM却能生成不错的效果!
上图展示了VideoJAM算法的整体框架。VideoJAM由两个单元构成;
a) 训练阶段。给定一个输入视频x1及其运动表示d1,这两个信号都被噪声化,并使用线性层W+in嵌入到一个单一的联合潜在表示中。扩散模型处理输入,两个线性投影层根据联合表示来预测外观和运动。
为了验证生成的步骤t≤60对于确定运动确实有意义,作者进行了SDEdit实验,在该实验中,作者将视频噪声化到不同的时间步长(20、60、80),并在给定噪声视频的情况下继续生成。在上图中,作者使用RAFT估计光流,为每个视频显示了一个代表性的外观帧和两个运动帧。
VideoJAM-4B使用32个A100 GPU进行了微调,批处理大小为32,在256×256的空间分辨率下进行了50000次迭代。它有3072个潜在维度和32个注意力块(与基础模型相同)。
06-VideoJAM算法性能评估
06.01-主观效果性能评估
上面的视频展示了该算法与多个SOTA的基线模型(Sora、Kling和Runway Gen3)在相同的文本提示下的运行视频生成效果。通过仔细观察与分析,我们可以发现:与其它方法相比,VideoJAM不仅能够生成运动一致性更好地视频,而且可以更好的满足用户的需求。
06.02-客观效果性能评估
图7.1-VideoJAM算法视频生成效果展示1
图7.2-VideoJAM算法视频生成效果展示2
图7.3-VideoJAM算法视频生成效果展示3
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!