打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
“ 自从Sora出现之后,文/图生视频变得一发不可收拾,可灵AI、即梦AI、Runway Gen3、Minmax等等。然而当下效果比较好的文生视频模型基本上都是闭源的,开源文生图模型与闭源模型之间存在着较大的性能差异!Open-Sora-Plan、Open-Sora等开源模型的效果不尽人意,一直没有实现重大的突破。今天小编给大家分享一个开源文生视频的新工作-我认为它将会把开源文生视频推向一个新的顶峰!香港科技大学提出了一种新颖而强大的视频自动编码器VAE,能够进行高保真视频编码。作者提出了时间感知的空间压缩,从而更好地编码和解码空间信息。 此外,作者还集成了一个轻量级的运动压缩模型,用于进一步的时间压缩。可喜的是,该视频重建算法重建出来的视频肉眼看上去很难找不一致的地方,接近100%相似!”
项目主页-https://yzxing87.github.io/vae/
代码链接-https://github.com/VideoVerses/VideoVAEPlus
论文链接-https://arxiv.org/pdf/2412.17805
01-视频VAE背景简介
鉴于视频生成领域的广泛关注,潜在视频扩散模型(LVDM)已成为一种流行的框架。它们已成功应用于多个强大的文生视频模型中,如Sora、VideoCrafter和CogVid eoX等。与直接生成视频像素不同,LVDM产生潜在空间中生成潜在的视频表示。这是通过首先训练视频VAE将视频编码到这个潜在空间中来实现的。因此,视频VAE作为LVDM的关键和基本组成部分,最近引起了人们的极大关注。
有效的视频VAE可以帮助降低视频扩散模型的训练成本,同时提高生成视频的最终质量。最初,一系列研究采用稳定扩散中的图像VAE进行视频生成任务,包括Animate Diff、MagicVideo、VideoCrafter1和VideoCrafter2。然而,由于缺乏时间相关性,直接采用图像VAE并逐帧压缩视频会导致时间闪烁。此外,沿时间维度的信息冗余没有减少,导致后续潜在视频扩散模型的训练效率低。
从Sora开始,通过视频VAE在时间和空间上压缩视频,出现了一系列旨在复制Sora并训练自己的视频VAE的研究,包括Open Sora、Open Sora Plan、CV-VAE、CogVid eoX、EasyAnimate和Cosmos Tokenizer。然而,当前视频VAE的性能存在许多问题,包括运动重影、低级时间闪烁、模糊(面部、手、边缘、文本)和运动卡顿(缺乏正确的时间转换)。如上面的视频所示,左边表示输入的原始视频,右图表示该算法重建之后的视频!
02-视频VAE算法简介
最后,作者通过对图像和视频进行联合训练,进一步提高了模型的通用性,这不仅提高了重建质量,而且使模型能够执行图像和视频的自动编码。大量的实验结果表明该方法的有效性。
上面的视频展示了该算法在真实的输入视频上面的重建效果,如果一个算法可以精准的重建原始视频中的信息,那生成高质量的对它来说就变得轻而易举了。小编看了好几遍视频,反正没有找到什么大的不同,重建效果简直太棒了!
如上图所示,作者展示了最优时空建模与其它两种方案的整体流程。通过将预训练的2D空间VAE膨胀为3D VAE来实现同步建模。顺序建模表示首先用空间编码器压缩空间维度,然后用时间编码器压缩时间信息。
最后,按照输入块、下采样块、中间块、中间块、上采样块、输出块的方式重建出最终的视频。
05.02-跨模态学习效果
如上图所示,与最左边的GT相比,联合训练可以进一步提高视频重建的质量,重建出来的图片在某些细节方面与原图之间更加符合,这充分的证明了其有效性。
06-视频VAE环境搭建与运行
06.01-搭建算法运行环境
# 克隆代码到本地
git clone git@github.com:yzxing87/vae.git
cd vae
# 创建虚拟环境
conda create --name vae python=3.10 -y
conda activate vae
# 安装三方依赖库
pip install -r requirements.txt
# 步骤1-根据需要下载预训练模型- https://github.com/VideoVerses/VideoVAEPlus
# 步骤2-构建视频或图片测试数据
examples/videos/
├── gt/
│ ├── video1.mp4
│ ├── video1.txt # Optional caption
│ ├── video2.mp4
│ ├── video2.txt
│ └── ...
├── recon/
└── (reconstructed videos will be saved here)
examples/images/
├── gt/
│ ├── image1.jpg
│ ├── image2.png
│ └── ...
├── recon/
└── (reconstructed images will be saved here)
# 步骤3-运行视频或者图片重建
bash scripts/run_inference_video.sh
bash scripts/run_inference_image.sh
07.01-主观效果性能评估
上图展示了该方法与多个SOTA的基线方法(Open Sora Plan、Open Sora、CV-VAE、Cosmos Tokenizer、CogVideo X、Easy Animate)的比较结果。该方法显著改善了运动恢复,即使在快速运动场景中也大大减少了重影伪影。相比之下,Open Sora Plan和CV-VAE难以重建快速移动的物体,导致重影伪影。此外,Open Sora VAE引入了颜色重建误差,如移动人物的服装所示。将潜在通道增加到16可以改善所有基线的运动重建,但仍然存在明显的细节误差。作者提出的16通道模型进一步减轻了这些误差,从而实现了更精确的细节重建。
07.02-客观效果性能评估
图8.2-视频VAE算法重建效果展示2
09-近期线下交流活动
这是AI产品汇举办的第6次线下分享活动,欢迎对AI&AIGC感兴趣、或这有创业想法或者产品的朋友一起来交流与探讨,仅有30个坑位,先到先得。
由于博主当前在深圳,去北京举办一场活动的开销比较大(来回路费+茶歇+场地)等,所以本地活动会象征性的收取一点费用,只要能保底就行,请各位朋友知悉!
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!