打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://seaweed.video/
代码链接-未开源
论文链接-https://seaweed.video/seaweed.pdf
为什么需要这个算法?-- 虽然基于扩散模型的视频生成模型已经展现出惊艳的效果,但是当下的主流SOTA视频生成模型基本上都没有关注成本!MovieGen使用6000多个NVIDIA H100 GPU。这样的需求可能会严重阻碍视频生成模型的快速迭代与发展。除了高昂的训练成本外,视频生成中的推理仍然非常昂贵,通常比语言、图像或音频生成高出几个数量级。
这个算法能做什么?-- 为了解决这个问题,字节提出了一种经济高效的策略,用于训练轻量级的视频生成基础模型。作者提出了一个中等规模的生成模型,它有大约70亿个参数(7B),称为Seaweed-7B,从头开始训练该模型花费了665000 H100 GPU小时。这可能是视频S3.0的即梦AI了!
这个算法效果如何?--大量的实验结果表明:Seaweed-7B的性能与在更大GPU资源上训练的更大模型相当(14B的Wan2.1),甚至超过了后者;该模型具有很强的泛化能力,可以通过轻量级微调或持续训练在广泛的下游应用程序中有效地适应。
01-Seaweed背景简介
视频生成模型在过去几年中取得了快速发展。最近的一些研究介绍了从头开始训练视频生成模型的各种方法,如MovieGen、Cosmos和Wan2.1等。这些方法表现出一致的模式,利用扩散变换器(DiT),并遵循缩放模型大小和GPU资源的趋势,从而提高性能。虽然扩大版的DiT模型有望实现,但是其训练需要大量的GPU成本。例如,MovieGen使用6000多个NVIDIA H100 GPU。这样的需求可能会严重阻碍视频生成模型的快速迭代与发展。
除了高昂的训练成本外,视频生成中的推理仍然非常昂贵,通常比语言、图像或音频生成高出几个数量级。对于许多应用程序,例如Instagram和YouTube Shorts等社交媒体中的应用程序,推理可能会受到GPU内存和高服务成本的限制。因此,大量的训练和推理费用往往有利于中小型模型,这些模型为训练和推理提供了更好的成本效益。
02-Seaweed算法简介
本文提出了一种经济高效的策略,用于训练轻量级的视频生成基础模型。作者提出了一个中等规模的生成模型,它有大约70亿个参数(7B),称为Seaweed-7B,从头开始训练该模型花费了665000 H100 GPU小时。
虽然它使用适度的计算资源进行训练,但与当代更大尺寸的视频生成模型相比,Seaweed-7B表现出了极具竞争力的性能。在资源受限的环境中,设计选择尤为重要
本文重点介绍了提高中型扩散模型性能的关键设计决策。根据经验,作者得出两个观察结果:1)Seaweed-7B的性能与在更大GPU资源上训练的更大模型相当,甚至超过了后者;2)该模型具有很强的泛化能力,可以通过轻量级微调或持续训练在广泛的下游应用程序中有效地适应。
06-Seaweed算法性能评估
上表展示了该方法与多个SOTA的视频生成模型的客观指标生成结果,其中Seaweed-7B模型排名第二,优于Sora和Veo 2.0等SOTA模型。这一结果尤其重要,因为Seaweed-7B是一个7B模型,其计算资源相当于在27.7天内在1000个H100 GPU上训练,其性能超过了更大的模型,其中许多模型都是用更大的GPU资源训练的,如Wan 2.1的14B和HunyuanVideo的13B。
上图展示了该方法与多个SOTA基线模型的细粒度比较结果。通过观察与分析,我们可以发现:该模型在指标上远远优于Sora、Wan-2.1和浑源视频。与Kling 1.6(HD)相比,该模型在快速跟随和运动质量方面具有竞争力,但在视觉质量方面落后,导致整体排名和表3中的Elo排名较低。
这种视觉质量的不足是意料之中的,因为我们在这次测试中使用的15个结果是480p或720p,而Kling的输出是1080p,这使其在视觉保真度方面具有明显的优势。
07-Seaweed算法效果展示
08-文末彩蛋
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!