VideoCrafter2:基于有限数据即可生成高质量视频的扩散模型

VideoCrafter2 是由腾讯 AI Lab 研发的高品质视频生成框架。该框架代码在今年初正式发布并开源,团队同步发表了技术论文 "VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models"。该模型框架是在之前的 VideoCrafter1 基础上进行了大幅改进,能够在输入数据有限的情况下(低质量视频 + 高质量图片)即能生成高质量的视频画面。

项目介绍网站:
https://ailab-cvc.github.io/videocrafter2/

VideoCrafter2 主要通过分析视频模型中空间和时间模块之间的联系,以及对低质量视频的分布偏移,来提高视频模型的质量。研究团队首先使用低质量视频来保证运动一致性,再使用高质量图像来确保画面质量和概念风格的组合效果。这种方法能实现在不损失画面动态性的前提下,通过使用高质量图像对空间模块进行微调增强,从而提高整体视频质量。


效果表现

VideoCrafter2 包含文本到视频 (Text2Video, T2V) 和图像到视频 (Image2Video, I2V) 两套模型。通过这些模型,用户可以将文本提示语转换成具体的视频画面。

文本到视频生成效果示例:

图像到视频生成效果示例:

相比对 VideoCrafter1,VideoCrafter2 在画质、动态表现和画风组合方面都有显著提升:

  • 画面质量对比:

  • 高动态性表现:

  • 画面概念合成对比:

项目团队还发表了使用 VideoCrafter2 创作的 75 秒精美短片《女孩和鹿的友情》

实现思路

核心方法:

  1. 空间-时间耦合分析:VideoCrafter2 首先分析了视频模型中空间模块和时间模块之间的联系。研究者发现,完全训练所有模块(包括空间和时间模块)会导致空间和时间模块之间更强的耦合,相比于仅训练时间模块的情况。

  2. 数据层面的外观与运动分离:VideoCrafter2 提出在数据层面上将外观(画面质量)与运动分离。具体来说,使用低质量的视频数据来保证视频的时间一致性和运动特性,同时使用高质量的图像数据来提升画面质量和概念组合的能力。

  3. 高质量图像的利用:研究者利用成熟的文本到图像(T2I)模型,例如 SDXL 和 Midjourney,来获取大量高分辨率和复杂概念组合的图像。这些图像被用于微调 VideoCrafter2 的空间模块,从而提高所生成视频的质量。

视频生成过程:

  1. 基础视频模型训练:使用 WebVid-10M 这样的低质量视频数据集来训练一个基础的视频生成模型。这个模型能够捕捉到视频中的运动特性和时间一致性。

  2. 高分辨率图像的微调:使用高质量的图像数据集(如JDB)对基础视频模型的空间模块进行微调。这一步骤是通过直接微调空间模块的参数来提高视频的画面质量,而不会对运动特性产生负面影响。

  3. 概念组合的增强:为进一步提升视频模型在概念组合方面的能力,VideoCrafter2 提出在微调阶段使用具有复杂概念的合成图像。这些图像能够更好地模拟现实世界中不会出现的概念组合,从而增强模型的创造力和多样性。

  4. 生成高质量视频:经过上述步骤后,VideoCrafter2 能够生成与文本描述相匹配的高质量视频。用户通过提供文本提示,让模型生成具有高视觉质量、准确文本视频对齐和复杂概念组合的视频内容。


通过这种方法,VideoCrafter2 能够在不依赖高质量视频数据的情况下,生成具有高视觉质量的视频画面,这一方法在实际应用和视频生成的研究都具有重要价值。

论文解读

论文地址:https://arxiv.org/abs/2401.09047

本文主要探讨了如何在数据有限的情况下,训练出高质量的视频扩散模型。

论文要点概括如下:

  1. 研究背景与目标:当前的文本到视频(Text-to-video)生成模型在生成高质量视频方面取得了一定的进展,但这些模型通常依赖于大规模、高质量的视频数据集,而这些数据集往往不易获取。因此,本研究旨在解决如何在没有高质量视频数据的情况下,训练出能够生成高质量视频的模型。

  2. 方法介绍:本文提出了一种新的方法,通过分析视频模型中空间和时间模块之间的联系,以及对低质量视频的分布偏移,来提高视频模型的质量。具体来说,研究者首先使用低质量视频来保证运动一致性,然后使用高质量图像来确保画面质量和概念组合能力。这种方法允许在不牺牲运动质量的情况下,通过使用高质量图像对空间模块进行微调,从而提高整体视频质量。

  3. 实验设置:为了克服数据限制,研究者使用了WebVid10M作为低质量视频数据源,以及JDB作为高质量图像数据源。同时,为了在训练基础T2V模型时防止概念遗忘,还使用了LAION-COCO数据集进行图像和视频的联合训练。

  4. 评估方法:论文采用了EvalCrafter作为评估工具,该工具包含大约18个客观指标,用于评估视觉质量、内容质量、运动质量和文本-视频对齐等方面。此外,还进行了用户研究,以评估人类对不同视频模型输出的偏好。

  5. 实验结果:通过与其他几种最先进的T2V模型进行比较,包括商业模型和开源模型,本文提出的方法在视觉质量、文本-视频对齐和运动质量方面表现出色。特别是,使用高质量图像进行微调的空间模块直接微调(F-Spa-DIR)在保持运动质量的同时,显著提高了画面质量。

  6. 结论:本文成功提出了一种在数据有限的情况下训练高质量视频扩散模型的方法。通过深入分析基于Stable Diffusion的视频模型的训练方案,并探索空间和时间维度之间的耦合强度,研究者发现完全训练的T2V模型比部分训练的模型具有更强的空间-时间耦合。基于这一观察,提出了在数据层面上将外观与运动分离的方法,即利用低质量视频进行运动学习,以及利用高质量图像进行外观学习。此外,还建议在微调阶段使用具有复杂概念的合成图像,而不是真实图像。通过定量和定性评估,证明了所提出方法的有效性。

这篇论文为视频生成领域提供了一种新的研究方向和方法,尤其是在数据获取困难的情况下,如何利用现有视觉资源提高视频生成质量,具有重要的理论和实践意义。


~~~ END ~~~