GAN超燃回归 | 字节发布"单步视频生成模型",2s生成720p/24fps视频,速度提升48倍+!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



毫无疑问的是,扩散模型已经在图像生成与视频生成任务上面得到了广泛的应用,但是的图像生成与视频模型变动越来越大。对于工业界而言,降低扩散模型的生成成本是一个相当重要研究领域。扩散步骤蒸馏已成成为一种减少推理步骤的有效方法,但是仍然没有取得明显的成果。为了解决单步视频生成难题,作者介绍了一种用于单步生成图像和视频的新方法-APT,因为它与通常在后训练阶段执行的监督微调相似。该方法利用预先训练的扩散模型,特别是扩散变换器 (DiT) 作为初始化,并使用对抗性训练目标针对真实数据继续训练 DiT。该模型是第一个在单个步骤(1280×720 24fps)中展示高分辨率视频生成的模型,超越了之前最先进的模型。在单个H100 GPU 上面,该模型可以在两秒钟内使用单个步骤生成两秒的 1280×720 24fps 视频。这个全球首个16B的GAN模型,让消失已久的GAN又重新回到了我们的视野中!



项目主页-https://seaweed-apt.com/

论文链接-https://arxiv.org/pdf/2501.08316





01-APT背景简介

   扩散方法已经在大规模图像生成和视频生成任务中得到了广泛的应用。降低扩散模型的生成成本是一个重要研究领域。在学者们提出的多种方法中,扩散步骤蒸馏已成成为一种减少推理步骤的有效方法。通常,这些方法从预先训练的教师扩散模型开始,该模型通过多个扩散推理步骤生成目标。然后,它们利用知识蒸馏技术来训练学生模型,使得该模型可以使用更少的扩散推理步骤复制老师的输出结果。
    单步生成通常被认为是扩散蒸馏的巅峰,但解决该问题面临着重大的挑战。它偏离了扩散模型的基本原理,后者依赖于通过迭代去噪步骤来揭示数据的分布情况。然而,加速视频生成在学术界进度缓慢。随着扩散方法的兴起,最近的研究开始探索将图像蒸馏技术扩展到视频扩散模型。
    然而,早期的研究仅探索了小规模和低分辨率视频模型的蒸馏,这些模型仅支持生成 512×512分辨率的视频,总共 16 帧。这些方法通常仍需要 4 个扩散步骤。鉴于高分辨率视频生成任务的计算成本过高,例如,即使在 H100 等最先进的 GPU 上,生成几秒钟的 1280×720 24fps的视频也需要几分钟的时间,该工作旨在通过单个步骤生成高分辨率视频,这算是一种很大胆的尝试。
02-APT算法简介
    为了解决单步视频生成难题,作者介绍了一种用于单步生成图像和视频的新方法-APT,因为它与通常在后训练阶段执行的监督微调相似该方法利用预先训练的扩散模型,特别是扩散变换器 (DiT) 作为初始化,并使用对抗性训练目标针对真实数据继续训练 DiT。
    作者观察到 APT 具有两个优点。首先,APT 消除了与从老师扩散模型那里预先计算视频样本相关的大量成本。其次,与扩散蒸馏不同,扩散蒸馏的质量本质上受到扩散老师的限制,而 APT 则表现出在某些评估标准上大幅超越老师的能力,特别是在提高真实感、解决曝光问题和增强细节方面。为了提高训练稳定性和质量,作者对模型架构和训练程序进行了多项改进,并提出了近似的 R1 正则化目标
    借助 APT,作者训练了迄今为止最大的 一个GAN 模型(约 16B),它可以通过单次前向评估生成图像和视频。大量的实验结果表明:该模型实现了与最先进的单步图像生成方法相当的性能。
    更重要的是,该模型是第一个在单个步骤(1280×720 24fps)中展示高分辨率视频生成的模型,超越了之前最先进的模型。在 单个H100 GPU 上面,该模型可以在两秒钟内使用单个步骤生成两秒的 1280×720 24fps 视频。在具有并行化的 8×H100 GPU 上面,可以实时运行带有文本编码器和潜在解码器的整个模型。
03-APT算法应用场景
03.01-单步图片生成
    上图展示了该模型还可以使用单个神经函数评估(1NFE)生成1024*1024大小的图像。该模型生成的图像具有逼真的纹理和细节。
03.02-单步视频生成
    该工作是第一个通过使用对抗性后训练技术,使用单个神经函数评估(1NFE)生成整个视频。上图展示了该模型实时生成的2秒1280x720 24fps的视频。
04-APT算法整体流程
    上图展示了该模型的整体架构。该模型是一个GAN架构,包含一个生成器和一个鉴别器,它们的主干网络都使用扩散模型架构,但使用了不同的策略进行初始化。
    该方法建立在预先训练的文本到视频扩散模型上,该模型能够通过 T 个扩散步骤生成图像和视频。整个训练过程遵循对抗性优化,通过最小-最大游戏交替进行。鉴别器 D 将真实样本与生成的样本进行分类,最大化?LD,而生成器 G 旨在生成欺骗鉴别器的样本,最小化 LG。
    具体而言,该扩散模型使用 MMDiT 架构,并使用流匹配目标在潜在空间中对原始分辨率中的图像和视频混合进行训练。该模型包含36层变压器块,总共包含80 亿个参数。除此之外,如图中所示,作者在鉴别器网络上面添加了额外的输出头,用来产生标量逻辑。
05-APT算法实现细节
05.01-更深的判别器效果分析
    上图展示了使用不同深度的判别器对模型生成效果的影响。最左边表示半深度、中间表示2/3深度、右边表示全深度。通过观察与分析,我们可以发现:使用包含预训练网络完整深度的更深层鉴别器可以提高生成质量。
05.02-最后一层判别特征影响
    上图展示了最后一层的判别器对模型生成效果的影响程度,左边一列表示仅使用最后一层判别器,右边一列表示使用多层判别器之后的生成效果。通过观察与分析,我们可以发现:仅利用最后一层判别器可能会导致不成比例的结构的产生,而多层判别器可以很好的缓解这一问题。
05.03-训练迭代次数和EMA的影响
    上图展示了模型的快速适应能力。对于非 EMA 模型,即使经过 50 次更新,它也能生成清晰的图像。即EMA 模型通常比非 EMA 模型表现更好。除此之外,作者发现 EMA 模型的质量在 350 次更新时达到峰值,并且训练时间越长,结构退化就越严重。
05.04-视频批大小影响
    对于图像而言,早期的实验结果表明:较大的批处理大小可以提高稳定性和结构完整性。对于视频而言,作者发现使用 256 的小批处理大小会导致模式崩溃而使用 1024 的大批处理大小则不会。因此,作者最终的训练对图像采用 9062 的大批处理大小,对视频采用 2048 的批处理大小。
06-APT算法性能评估
06.01-主观效果性能评估
    上图展示了25步的扩散模型与单步推理的APT在相同的文本输入上面的图像生成比较结果。通过仔细观察与分析,我们可以发现:无分类器指导的扩散模型可以生成看起来不太自然的过度曝光图像,而APT 提高了视觉保真度,生成的图片更加自然一些。
    上图展示了使用该方法与多个SOTA的文生图模型的不同变种(FLUX、SD3.5、SDXL)在相同的文本提示下的生成效果。基于扩散模型的迭代步数统一使用25,而APT都是单步推理的结果。通过观察与分析,我们可以发现:该方法生成的图像细节更丰富一下,在结构完整性方面也取得了不错的效果。
    上面的视频展示了APT与基于Step=25的扩散生成模型在相同的文本提示下的生成效果。通过观察与分析,我们可以发现:对抗性后训练可以提高视觉保真度,即丰富细节和提升真实感,但单步生成在结构和文本对齐方面仍然存在严重的退化问题。
06.02-客观效果性能评估
    上表展示了该算法与多个SOTA的文生图模型在相同的文本输入下的客观指标评估结果,其它的扩散模型均使用Step=25,而APT仅需单步推理。通弄过仔细观察与分析,我们可以发现:
  • 在结构完整性方面,该方法有所退化,但比除 SDXL-Hyper 之外的几乎所有现有方法都要小。
  • 该方法在文本对齐性能方面较弱,但在比较中仍处于中等水平。
  • 在视觉保真度方面,该模型是唯一一个达到更有利评估标准的模型,这与我们的定性分析观察结果一致,即对抗性后训练增强了细节和真实感。
  • 与原始 25 步扩散模型相比,改进可以归因于我们的方法,它放弃使用扩散模型作为老师,而是对真实数据进行直接对抗性训练。
    上表展示了作者将该模型与多个最先进的单步图像生成模型比较的结果。通过观察与分析,我们可以发现:方法在单步图像生成中实现了与最先进的方法相当的性能。平均而言,它在绝对偏好方面排名第二,落后于 FLUX-Schnell,在相对偏好方面排名第一。
    与基线方法相比,该模型因其视觉保真度和结构完整性而受到青睐,但在文本对齐方面不太受欢迎。较弱的文本对齐是APT方法的一个主要的限制。
07-APT算法效果展示
图7.1-APT算法生成视频效果展示1
图7.2-APT算法生成视频效果展示2
图7.3-APT算法生成的多样性视频效果展示3
图7.4-APT算法隐特征可视化效果展示4



关注我,AI热点早知道,AI算法早精通,AI产品早上线!




禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们