腾讯MuseV:无限长度和高保真虚拟人视频生成,ComfyUI使用指南

MuseV:无限长度和高保真虚拟人视频生成与视觉条件并行去噪

MuseV简介

自2023年3月起,腾讯音乐娱乐实验室采用扩散模型建立了世界模拟器视觉系统(world simulator vision)。MuseV 是腾讯音乐娱乐实验室在 2023年7月取得的一个重要里程碑。在此之后,受到 Sora 进展的启发,团队决定开源 MuseV,希望它能够惠及社区。

MuseV 是一个基于扩散模型的虚拟人视频生成框架:

  • ? 支持使用新颖的视觉条件并行去噪方案进行无限长度生成。

  • ? 为在人类数据集上训练的虚拟人视频生成提供了模型checkpoint。

  • ? 支持 Image2Video、Text2Image2Video、Video2Video框架。

  • ? 与 Stable Diffusion 生态系统兼容,包括 base_model、lora、controlnet 等。

  • ? 支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

  • ? 模型和权重文件开源。下载地址:https://huggingface.co/TMElyralab/MuseV

模型结构概述

并行去噪

MuseV演示

演示案例

下面的演示视频中所有帧都是由 text2video 模型生成的,并且没有进行任何后期处理。

人物视频生成:

01

输入图片:

输出视频:


02

输入图片:


输出视频:

03

输入图片:


输出视频:

场景视频生成:

01

输入图片:

输出视频:

02

输入图片:

输出视频:

MuseV ComfyUI体验

当前社区已有对应的ComfyUI插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseV。

ComfyUI插件安装步骤如下所示(工作流已放置文末口令获取):

  • ? 通过ComfyUI插件管理器搜索ComfyUI-MuseV,并点击安装插件。

  • ? 下载模型TMElyralab/MuseV,并放置在ComfyUI/models/diffusers目录下。模型下载地址:https://huggingface.co/TMElyralab/MuseV/tree/main。或者在ComfyUI目录位置使用下列`huggingface-cli`命令下载:

huggingface-cli download --resume-download TMElyralab/MuseV --local-dir ./models/diffusers/TMElyralab/MuseV
  • ? 导入工作流并重启ComfyUI软件。

01.泳池

提示语:

(masterpiece, best quality, highres:1), peaceful beautiful sea scene

工作流

输出视频

02.吉他

提示语:

(masterpiece, best quality, highres:1), playing guitar

工作流

输出视频

03.起风了

提示语:

(masterpiece, best quality, highres:1), The wind rises,the hut Shake from side to side

工作流

输出视频

04.唱歌

提示语:

(masterpiece, best quality, highres:1), sing

工作流

输出视频

从最后一副图能够看出对于复杂场景,手舞动的质量可能存在不流畅,需要提示词和图片选择配合。

该插件还包含Video到Video的工作流,也一同放置到文末工作流网盘中。笔者测试感受需要输入视频、输入图像、提示语的配合比较强才行,待下次分享,感兴趣同学也可以自行体验。

附录