接近100%无损重建 | 「开源文生视频」领域“爆品”强势来袭,一个模型搞定“图像和视频”!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



 自从Sora出现之后,文/图生视频变得一发不可收拾,可灵AI、即梦AI、Runway Gen3、Minmax等等。然而当下效果比较好的文生视频模型基本上都是闭源的,开源文生图模型与闭源模型之间存在着较大的性能差异!Open-Sora-Plan、Open-Sora等开源模型的效果不尽人意,一直没有实现重大的突破。今天小编给大家分享一个开源文生视频的新工作-我认为它将会把开源文生视频推向一个新的顶峰!香港科技大学提出了一种新颖而强大的视频自动编码器VAE,能够进行高保真视频编码。作者提出了时间感知的空间压缩,从而更好地编码和解码空间信息。 此外,作者还集成了一个轻量级的运动压缩模型,用于进一步的时间压缩。可喜的是,该视频重建算法重建出来的视频肉眼看上去很难找不一致的地方,接近100%相似!



项目主页-https://yzxing87.github.io/vae/

代码链接-https://github.com/VideoVerses/VideoVAEPlus

论文链接-https://arxiv.org/pdf/2412.17805





01-视频VAE背景简介

    鉴于视频生成领域的广泛关注,潜在视频扩散模型(LVDM)已成为一种流行的框架。它们已成功应用于多个强大的文生视频模型中,如Sora、VideoCrafter和CogVid eoX等。与直接生成视频像素不同,LVDM产生潜在空间中生成潜在的视频表示。这是通过首先训练视频VAE将视频编码到这个潜在空间中来实现的。因此,视频VAE作为LVDM的关键和基本组成部分,最近引起了人们的极大关注。

    有效的视频VAE可以帮助降低视频扩散模型的训练成本,同时提高生成视频的最终质量。最初,一系列研究采用稳定扩散中的图像VAE进行视频生成任务,包括Animate Diff、MagicVideo、VideoCrafter1和VideoCrafter2。然而,由于缺乏时间相关性,直接采用图像VAE并逐帧压缩视频会导致时间闪烁。此外,沿时间维度的信息冗余没有减少,导致后续潜在视频扩散模型的训练效率低。

    从Sora开始,通过视频VAE在时间和空间上压缩视频,出现了一系列旨在复制Sora并训练自己的视频VAE的研究,包括Open Sora、Open Sora Plan、CV-VAE、CogVid eoX、EasyAnimate和Cosmos Tokenizer。然而,当前视频VAE的性能存在许多问题,包括运动重影、低级时间闪烁、模糊(面部、手、边缘、文本)和运动卡顿(缺乏正确的时间转换)。如上面的视频所示,左边表示输入的原始视频,右图表示该算法重建之后的视频!

02-视频VAE算法简介

    学习鲁棒的视频变分自编码器(VAE)对于减少视频冗余和促进高效视频生成至关重要。由于缺乏时间压缩,将图像VAE单独直接应用于单个帧可能会导致时间不一致和次优压缩率。现有的视频VAE已经开始解决时间压缩问题;然而,它们往往遭受重建性能不足的困扰。
    本文提出了一种新颖而强大的视频自动编码器,能够进行高保真视频编码。首先,作者惊喜的发现,仅仅通过将图像VAE扩展到3D VAE来纠缠空间和时间压缩可能会引入运动模糊和细节失真伪影。因此,作者提出了时间感知的空间压缩,从而更好地编码和解码空间信息。
    此外,作者还集成了一个轻量级的运动压缩模型,用于进一步的时间压缩。其次,作者建议利用文生视频数据集中固有的文本信息,并将文本指导纳入到该模型中。这显著提高了重建质量,特别是在细节保存和时间稳定性方面。

    最后,作者通过对图像和视频进行联合训练,进一步提高了模型的通用性,这不仅提高了重建质量,而且使模型能够执行图像和视频的自动编码。大量的实验结果表明该方法的有效性。

03-视频VAE算法应用场景

    上面的视频展示了该算法在真实的输入视频上面的重建效果,如果一个算法可以精准的重建原始视频中的信息,那生成高质量的对它来说就变得轻而易举了。小编看了好几遍视频,反正没有找到什么大的不同,重建效果简直太棒了!

04-视频VAE算法整体流程

    如上图所示,作者展示了最优时空建模与其它两种方案的整体流程。通过将预训练的2D空间VAE膨胀为3D VAE来实现同步建模。顺序建模表示首先用空间编码器压缩空间维度,然后用时间编码器压缩时间信息。

    如最后一行所示,新的VAE结合了仿真建模与序列建模的优点,从而实现更好的视频重建质量。其VAE也受益于跨模态,即文本信息。
05-视频VAE算法实现细节
05.01-时间感知的空间自编码器细节
    上图展示了时间感知的空间自编码器的整体架构。详细的步骤如下所述:
  • 首先,作者将SD VAE的2D卷积扩展为3D卷积,并在扩展的3D卷积之后附加一个额外的3D卷积作为时间卷积,形成STBlock3D
  • 然后,作者为跨模态学习注入了具有文本条件的跨注意层
  • 最后,按照输入块、下采样块、中间块、中间块、上采样块、输出块的方式重建出最终的视频。

05.02-跨模态学习效果

    上图展示了跨模态学习对视频VAE的有效性。纹理信息的引入提高恢复视频中的细节的能力。作者使用输入提示的关键字来可视化学习到的注意力图,添加了跨模态学习之后,注意力图可以与输入的文本提示很好的对应起来,这充分证明了其有效性。
05.03-图像与视频联合训练效果

    如上图所示,与最左边的GT相比,联合训练可以进一步提高视频重建的质量,重建出来的图片在某些细节方面与原图之间更加符合,这充分的证明了其有效性。

06-视频VAE环境搭建与运行

06.01-搭建算法运行环境

# 克隆代码到本地git clone git@github.com:yzxing87/vae.gitcd vae
# 创建虚拟环境conda create --name vae python=3.10 -yconda activate vae
# 安装三方依赖库pip install -r requirements.txt
06.02-运行样例Demo
# 步骤1-根据需要下载预训练模型- https://github.com/VideoVerses/VideoVAEPlus# 步骤2-构建视频或图片测试数据examples/videos/├── gt/│   ├── video1.mp4│   ├── video1.txt  # Optional caption│   ├── video2.mp4│   ├── video2.txt│   └── ...├── recon/    └── (reconstructed videos will be saved here)
examples/images/├── gt/│ ├── image1.jpg│ ├── image2.png│ └── ...├── recon/ └── (reconstructed images will be saved here) # 步骤3-运行视频或者图片重建bash scripts/run_inference_video.shbash scripts/run_inference_image.sh
07-视频VAE算法性能评估

07.01-主观效果性能评估

    上图展示了该方法与多个SOTA的基线方法(Open Sora Plan、Open Sora、CV-VAE、Cosmos Tokenizer、CogVideo X、Easy Animate)的比较结果。方法显著改善了运动恢复,即使在快速运动场景中也大大减少了重影伪影。相比之下,Open Sora Plan和CV-VAE难以重建快速移动的物体,导致重影伪影。此外,Open Sora VAE引入了颜色重建误差,如移动人物的服装所示。将潜在通道增加到16可以改善所有基线的运动重建,但仍然存在明显的细节误差。作者提出的16通道模型进一步减轻了这些误差,从而实现了更精确的细节重建。

    上图展示了时空建模、顺序时空建模和作者提出的解决方案之间的重建效果。通过仔细观察与分析,我们可以发现:这种顺序时空设计可以比选项1更好地压缩和恢复输入视频的动态,但不擅长恢复空间细节。而大运动视频自编码下的持续改进效果证明了这一点。

07.02-客观效果性能评估

    上表展示了该算法与多个SOTA的视频重建方法(Open Sora Plan、Open-Sora、CV-VAE、Cosmos-Tokenizer、CogVideoX-VAE、EasyAnimate-VAE)等在多个不同的测试数据集上面的客观指标评估结果。通过观察与分析,我们可以发现:作者提出的视频VAE在不同的采样因子下、不同的通道下在不同的测试数据集上面基本上都获得了较高的得分,这充分证明其有效性。
08-视频VAE算法效果展示
图8.1-视频VAE算法重建效果展示1

图8.2-视频VAE算法重建效果展示2

图8.3-视频VAE算法重建效果展示3

图8.4-视频VAE算法重建效果展示4

09-近期线下交流活动


    这是AI产品汇举办的第6次线下分享活动,欢迎对AI&AIGC感兴趣、或这有创业想法或者产品的朋友一起来交流与探讨,仅有30个坑位,先到先得。

    由于博主当前在深圳,去北京举办一场活动的开销比较大(来回路费+茶歇+场地)等,所以本地活动会象征性的收取一点费用,只要能保底就行,请各位朋友知悉!



关注我,AI热点早知道,AI算法早精通,AI产品早上线!




禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们