AI导演降临 | 7B参数硬撼可灵1.6,击败14B的Wan2.1,2K分辨率、20s长镜头、音视同频!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!




项目主页-https://seaweed.video/

代码链接-未开源

论文链接-https://seaweed.video/seaweed.pdf



为什么需要这个算法?-- 虽然基于扩散模型的视频生成模型已经展现出惊艳的效果,但是当下的主流SOTA视频生成模型基本上都没有关注成本!MovieGen使用6000多个NVIDIA H100 GPU。这样的需求可能会严重阻碍视频生成模型的快速迭代与发展。除了高昂的训练成本外,视频生成中的推理仍然非常昂贵,通常比语言、图像或音频生成高出几个数量级。

这个算法能做什么?--  为了解决这个问题,字节提出了一种经济高效的策略,用于训练轻量级的视频生成基础模型。作者提出了一个中等规模的生成模型,它有大约70亿个参数(7B),称为Seaweed-7B,从头开始训练该模型花费了665000 H100 GPU小时。这可能是视频S3.0的即梦AI了!

这个算法效果如何?--大量的实验结果表明:Seaweed-7B的性能与在更大GPU资源上训练的更大模型相当(14B的Wan2.1),甚至超过了后者;该模型具有很强的泛化能力,可以通过轻量级微调或持续训练在广泛的下游应用程序中有效地适应。



01-Seaweed背景简介

    视频生成模型在过去几年中取得了快速发展。最近的一些研究介绍了从头开始训练视频生成模型的各种方法,如MovieGen、Cosmos和Wan2.1等。这些方法表现出一致的模式,利用扩散变换器(DiT),并遵循缩放模型大小和GPU资源的趋势,从而提高性能。虽然扩大版的DiT模型有望实现,但是其训练需要大量的GPU成本。例如,MovieGen使用6000多个NVIDIA H100 GPU。这样的需求可能会严重阻碍视频生成模型的快速迭代与发展。

    除了高昂的训练成本外,视频生成中的推理仍然非常昂贵,通常比语言、图像或音频生成高出几个数量级。对于许多应用程序,例如Instagram和YouTube Shorts等社交媒体中的应用程序,推理可能会受到GPU内存和高服务成本的限制。因此,大量的训练和推理费用往往有利于中小型模型,这些模型为训练和推理提供了更好的成本效益。

02-Seaweed算法简介

    本文提出了一种经济高效的策略,用于训练轻量级的视频生成基础模型。作者提出了一个中等规模的生成模型,它有大约70亿个参数(7B),称为Seaweed-7B,从头开始训练该模型花费了665000 H100 GPU小时。

    虽然它使用适度的计算资源进行训练,但与当代更大尺寸的视频生成模型相比,Seaweed-7B表现出了极具竞争力的性能。在资源受限的环境中,设计选择尤为重要

    本文重点介绍了提高中型扩散模型性能的关键设计决策。根据经验,作者得出两个观察结果:1)Seaweed-7B的性能与在更大GPU资源上训练的更大模型相当,甚至超过了后者;2)该模型具有很强的泛化能力,可以通过轻量级微调或持续训练在广泛的下游应用程序中有效地适应。

03-Seaweed算法应用场景
03.01-单/多图生视频
    如上面的视频所示,该模型可以进行微调,根据用户输入的参考图像生成视频,为用户提供灵活的输入选项。无论是人类参考图像、物体参考图像还是多个参考图像的组合,该模型都可以将它们合成为动态视频序列。
03.02-首尾帧条件生成视频
    如上面的视频所示,该模型可以根据用户输入的第一帧和最后一帧进行可控生成,使其能够生成有趣的过渡视频,从而实现更好的创意控制。
03.03-人物视频生成
    如上面的视频所示,Seaweed能够根据Omnihuman的音频输入生成内容,从而创建与音频中的声音完美匹配的逼真人物。该模型确保嘴唇动作和身体姿势同步,与音频的音调和时间对齐,创造出无缝逼真的互动。
03.04-生成带语音的视频
    如上面的视频所示,Seaweed能够同时生成音频和视频。生成的音频是同步的,从而反映视频的动作、场景、音调、节奏和风格。音频补充并提升了视觉叙事,提供了无缝的多媒体体验。
03.05-长视频生成
    如上面的视频所示,Seaweed支持在没有任何扩展技术的情况下生成持续20秒的单视频。通过视频扩展技术,它可以生成长达一分钟的视频。
03.06-一致性故事生成
    如上面的视频所示,Seaweed能够生成一致的、多镜头的、长篇的故事,保持场景和镜头的连续性。用户可以为总体叙述提供全局文本描述,也可以为每个单独的镜头提供细粒度的文本描述。
03.07-高分辨率视频生成
    如上面的视频所示,Seaweed原生支持生成高达1280x720分辨率的视频。结果还可以进一步上采样到2K QHD(2560x1440)分辨率。超分辨率模块可以单独应用于现有视频进行上采样和恢复。
03.08-相机运控视频生成
    如上面的视频所示Seaweed可以通过定义的轨迹来模拟精确的相机控制,不仅提供了增强的创意方向,还为用户探索模拟世界提供了一种互动方式。凭借其实时生成能力,Seaweed还可以作为模拟世界的基础模型。
03.09-物理一致性生成
    如上图所示,Seaweed还可以在通过计算机生成图像(CGI)渲染的合成视频上进行后训练,使其能够在保持照片真实感的同时增强视频生成的物理一致性。上图展示了它在复杂动作生成任务中表现出来的卓越3D一致性和精确人体姿势完整性的生成视频,以及用于训练的合成视频。
04-Seaweed算法整体流程
    如上图所示,变分自编码器(VAEs)常用于现代大规模图像和视频生成模型中,用于高效训练和推理。VAE由一个将原始像素数据压缩到紧凑潜在空间的编码器和一个从这些潜在特征重建原始输入像素的解码器组成。理想的VAE应该在保持高重建质量的同时实现高压缩比。VAE是一个重要的组成部分,因为它为生成内容的真实性和保真度设定了上限,其潜在分布会影响后续生成模型的收敛速度。
    受到图像文本对比预训练的启发,它可以从视听数据中有效地捕获细粒度动作语义和时间对齐。对比视听预训练(CAVP)模型具有双分支架构,用于提取音频生成中使用的视频嵌入。如上图所示,它包括一个双分支视频编码器:一个分支使用更高的FPS和3D CNN来提取细粒度视频18图21对比视听预训练(CAVP)。另一个使用预训练的SigLIP模型以较低的FPS对关键帧进行操作。
    音频编码器采用基于梅尔谱图的1D卷积神经网络和变压器网络来提取音频特征。经过对比训练的视频编码器是音频生成的条件。对于音频生成,作者利用了一个具有流匹配目标的条件潜在扩散模型。视频嵌入在时间上被上采样以匹配音频FPS,并与全局音乐嵌入和帧级语音嵌入连接,作为音频生成过程的调节输入。
05-Seaweed算法实现细节
05.01-视频标注器细节
    上图展示了一些生成的字幕示例。作者使用的视频字幕模型由一个预训练的CLIP视觉编码器和一个用于字幕的LLM组成。简短而详细的字幕由该视频字幕模型生成。简短的字幕提供了以动作为中心的视频摘要,而详细的字幕则提供了对场景的丰富描述,包括属性、对象和环境。
05.02-模型训练阶段
    作者使用从低分辨率到高分辨率的多阶段训练策略来训练该模型。作者从仅从低分辨率图像对模型进行预训练开始,这样就可以建立文本提示和常见视觉概念之间的对齐。
    在预训练阶段之后,作者应用监督微调(SFT),然后是基于人类反馈的强化学习(RLHF),从而进一步提高输出的美学质量、运动一致性和结构连贯性。文本到视频和图像到视频任务的后训练过程是独立进行的。
05.03-SFT训练阶段重要性
    SFT阶段的目的是以更符合人类偏好的方式提高视觉质量,包括美学和视觉风格等因素。作者通过人工注释策划了一个包含70万个视频的数据集,这些视频具有很高的美学和视觉质量,确保了均衡的分布。
    SFT训练在256个GPU上使用恒定的学习率进行,对应于预训练阶段的最终学习率。如上图所示,经过SFT阶段后,生成的视频的美学和色彩质量得到了显著提高。
05.04-DPO策略重要性
    作者发现直接偏好优化(DPO)在解决这些问题方面非常有效。受Diffusion DPO中简化损失函数的启发,作者开发了一种用于视频生成的DPO方法,该方法在训练过程中将正样本的SFT损失纳入其中。
    上图展示了DPO之前(顶行)和之后(底行)的两个图像生成视频示例。通过观察与分析,我们可以发现:DPO显著提高了结构和运动质量。

06-Seaweed算法性能评估

    上表展示了该方法与多个SOTA的视频生成模型的客观指标生成结果,其中Seaweed-7B模型排名第二,优于Sora和Veo 2.0等SOTA模型。这一结果尤其重要,因为Seaweed-7B是一个7B模型,其计算资源相当于在27.7天内在1000个H100 GPU上训练,其性能超过了更大的模型,其中许多模型都是用更大的GPU资源训练的,如Wan 2.1的14B和HunyuanVideo的13B。

    上图展示了该方法与多个SOTA基线模型的细粒度比较结果。通过观察与分析,我们可以发现:该模型在指标上远远优于Sora、Wan-2.1和浑源视频。与Kling 1.6(HD)相比,该模型在快速跟随和运动质量方面具有竞争力,但在视觉质量方面落后,导致整体排名和表3中的Elo排名较低。

    这种视觉质量的不足是意料之中的,因为我们在这次测试中使用的15个结果是480p或720p,而Kling的输出是1080p,这使其在视觉保真度方面具有明显的优势。

07-Seaweed算法效果展示

08-文末彩蛋

    “AI生成视频”与“AI生成图片”2群限时开放,已进入交流群1的朋友请勿重复进群!欢迎对SD、MJ、可灵AI、即梦AI、Runway Gen3、Sora等文生图、图生图、文生视频、图生视频感兴趣的朋友进群交流。群内禁止一切广告,一经发现,立马移除,并永久加入黑名单!

关注我,AI热点早知道,AI算法早精通,AI产品早上线!




禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们