接近100%无损重建 | 「开源文生视频」领域“爆品”强势来袭，一个模型搞定“图像和视频”！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

“ 自从Sora出现之后，文/图生视频变得一发不可收拾，可灵AI、即梦AI、Runway Gen3、Minmax等等。然而当下效果比较好的文生视频模型基本上都是闭源的，开源文生图模型与闭源模型之间存在着较大的性能差异！Open-Sora-Plan、Open-Sora等开源模型的效果不尽人意，一直没有实现重大的突破。今天小编给大家分享一个开源文生视频的新工作-我认为它将会把开源文生视频推向一个新的顶峰！香港科技大学提出了一种新颖而强大的视频自动编码器VAE，能够进行高保真视频编码。作者提出了时间感知的空间压缩，从而更好地编码和解码空间信息。此外，作者还集成了一个轻量级的运动压缩模型，用于进一步的时间压缩。可喜的是，该视频重建算法重建出来的视频肉眼看上去很难找不一致的地方，接近100%相似！”

项目主页-https://yzxing87.github.io/vae/

代码链接-https://github.com/VideoVerses/VideoVAEPlus

论文链接-https://arxiv.org/pdf/2412.17805

01-视频VAE背景简介

鉴于视频生成领域的广泛关注，潜在视频扩散模型（LVDM）已成为一种流行的框架。它们已成功应用于多个强大的文生视频模型中，如Sora、VideoCrafter和CogVid eoX等。与直接生成视频像素不同，LVDM产生潜在空间中生成潜在的视频表示。这是通过首先训练视频VAE将视频编码到这个潜在空间中来实现的。因此，视频VAE作为LVDM的关键和基本组成部分，最近引起了人们的极大关注。

有效的视频VAE可以帮助降低视频扩散模型的训练成本，同时提高生成视频的最终质量。最初，一系列研究采用稳定扩散中的图像VAE进行视频生成任务，包括Animate Diff、MagicVideo、VideoCrafter1和VideoCrafter2。然而，由于缺乏时间相关性，直接采用图像VAE并逐帧压缩视频会导致时间闪烁。此外，沿时间维度的信息冗余没有减少，导致后续潜在视频扩散模型的训练效率低。

从Sora开始，通过视频VAE在时间和空间上压缩视频，出现了一系列旨在复制Sora并训练自己的视频VAE的研究，包括Open Sora、Open Sora Plan、CV-VAE、CogVid eoX、EasyAnimate和Cosmos Tokenizer。然而，当前视频VAE的性能存在许多问题，包括运动重影、低级时间闪烁、模糊（面部、手、边缘、文本）和运动卡顿（缺乏正确的时间转换）。如上面的视频所示，左边表示输入的原始视频，右图表示该算法重建之后的视频！

02-视频VAE算法简介

学习鲁棒的视频变分自编码器（VAE）对于减少视频冗余和促进高效视频生成至关重要。由于缺乏时间压缩，将图像VAE单独直接应用于单个帧可能会导致时间不一致和次优压缩率。现有的视频VAE已经开始解决时间压缩问题；然而，它们往往遭受重建性能不足的困扰。

本文提出了一种新颖而强大的视频自动编码器，能够进行高保真视频编码。首先，作者惊喜的发现，仅仅通过将图像VAE扩展到3D VAE来纠缠空间和时间压缩可能会引入运动模糊和细节失真伪影。因此，作者提出了时间感知的空间压缩，从而更好地编码和解码空间信息。

此外，作者还集成了一个轻量级的运动压缩模型，用于进一步的时间压缩。其次，作者建议利用文生视频数据集中固有的文本信息，并将文本指导纳入到该模型中。这显著提高了重建质量，特别是在细节保存和时间稳定性方面。

最后，作者通过对图像和视频进行联合训练，进一步提高了模型的通用性，这不仅提高了重建质量，而且使模型能够执行图像和视频的自动编码。大量的实验结果表明该方法的有效性。

03-视频VAE算法应用场景

上面的视频展示了该算法在真实的输入视频上面的重建效果，如果一个算法可以精准的重建原始视频中的信息，那生成高质量的对它来说就变得轻而易举了。小编看了好几遍视频，反正没有找到什么大的不同，重建效果简直太棒了！

04-视频VAE算法整体流程

如上图所示，作者展示了最优时空建模与其它两种方案的整体流程。通过将预训练的2D空间VAE膨胀为3D VAE来实现同步建模。顺序建模表示首先用空间编码器压缩空间维度，然后用时间编码器压缩时间信息。

如最后一行所示，新的VAE结合了仿真建模与序列建模的优点，从而实现更好的视频重建质量。其VAE也受益于跨模态，即文本信息。

05-视频VAE算法实现细节

05.01-时间感知的空间自编码器细节

上图展示了时间感知的空间自编码器的整体架构。详细的步骤如下所述：

首先，作者将SD VAE的2D卷积扩展为3D卷积，并在扩展的3D卷积之后附加一个额外的3D卷积作为时间卷积，形成STBlock3D。
然后，作者为跨模态学习注入了具有文本条件的跨注意层。
最后，按照输入块、下采样块、中间块、中间块、上采样块、输出块的方式重建出最终的视频。

05.02-跨模态学习效果

上图展示了跨模态学习对视频VAE的有效性。纹理信息的引入提高恢复视频中的细节的能力。作者使用输入提示的关键字来可视化学习到的注意力图，添加了跨模态学习之后，注意力图可以与输入的文本提示很好的对应起来，这充分证明了其有效性。

05.03-图像与视频联合训练效果

如上图所示，与最左边的GT相比，联合训练可以进一步提高视频重建的质量，重建出来的图片在某些细节方面与原图之间更加符合，这充分的证明了其有效性。

06-视频VAE环境搭建与运行

06.01-搭建算法运行环境

# 克隆代码到本地git clone git@github.com:yzxing87/vae.gitcd vae
# 创建虚拟环境conda create --name vae python=3.10 -yconda activate vae
# 安装三方依赖库pip install -r requirements.txt

06.02-运行样例Demo

# 步骤1-根据需要下载预训练模型- https://github.com/VideoVerses/VideoVAEPlus# 步骤2-构建视频或图片测试数据examples/videos/├── gt/│   ├── video1.mp4│   ├── video1.txt  # Optional caption│   ├── video2.mp4│   ├── video2.txt│   └── ...├── recon/    └── (reconstructed videos will be saved here)
examples/images/├── gt/│   ├── image1.jpg│   ├── image2.png│   └── ...├── recon/    └── (reconstructed images will be saved here)    # 步骤3-运行视频或者图片重建bash scripts/run_inference_video.shbash scripts/run_inference_image.sh

07-视频VAE算法性能评估

07.01-主观效果性能评估

上图展示了该方法与多个SOTA的基线方法（Open Sora Plan、Open Sora、CV-VAE、Cosmos Tokenizer、CogVideo X、Easy Animate）的比较结果。该方法显著改善了运动恢复，即使在快速运动场景中也大大减少了重影伪影。相比之下，Open Sora Plan和CV-VAE难以重建快速移动的物体，导致重影伪影。此外，Open Sora VAE引入了颜色重建误差，如移动人物的服装所示。将潜在通道增加到16可以改善所有基线的运动重建，但仍然存在明显的细节误差。作者提出的16通道模型进一步减轻了这些误差，从而实现了更精确的细节重建。

上图展示了时空建模、顺序时空建模和作者提出的解决方案之间的重建效果。通过仔细观察与分析，我们可以发现：这种顺序时空设计可以比选项1更好地压缩和恢复输入视频的动态，但不擅长恢复空间细节。而大运动视频自编码下的持续改进效果证明了这一点。

07.02-客观效果性能评估

上表展示了该算法与多个SOTA的视频重建方法（Open Sora Plan、Open-Sora、CV-VAE、Cosmos-Tokenizer、CogVideoX-VAE、EasyAnimate-VAE）等在多个不同的测试数据集上面的客观指标评估结果。通过观察与分析，我们可以发现：作者提出的视频VAE在不同的采样因子下、不同的通道下在不同的测试数据集上面基本上都获得了较高的得分，这充分证明其有效性。

08-视频VAE算法效果展示

图8.1-视频VAE算法重建效果展示1

图8.2-视频VAE算法重建效果展示2

图8.3-视频VAE算法重建效果展示3

图8.4-视频VAE算法重建效果展示4

09-近期线下交流活动

这是AI产品汇举办的第6次线下分享活动，欢迎对AI&AIGC感兴趣、或这有创业想法或者产品的朋友一起来交流与探讨，仅有30个坑位，先到先得。

由于博主当前在深圳，去北京举办一场活动的开销比较大（来回路费+茶歇+场地）等，所以本地活动会象征性的收取一点费用，只要能保底就行，请各位朋友知悉！

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们