自2023年3月起,腾讯音乐娱乐实验室采用扩散模型建立了世界模拟器视觉系统(world simulator vision)。MuseV
是腾讯音乐娱乐实验室在 2023年7月取得的一个重要里程碑。在此之后,受到 Sora 进展的启发,团队决定开源 MuseV
,希望它能够惠及社区。
MuseV
是一个基于扩散模型的虚拟人视频生成框架:
? 支持使用新颖的视觉条件并行去噪方案进行无限长度生成。
? 为在人类数据集上训练的虚拟人视频生成提供了模型checkpoint。
? 支持 Image2Video、Text2Image2Video、Video2Video框架。
? 与 Stable Diffusion 生态系统兼容,包括 base_model、lora、controlnet 等。
? 支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。
? 模型和权重文件开源。下载地址:https://huggingface.co/TMElyralab/MuseV
下面的演示视频中所有帧都是由 text2video
模型生成的,并且没有进行任何后期处理。
当前社区已有对应的ComfyUI
插件支持,插件地址为:https://github.com/chaojie/ComfyUI-MuseV。
ComfyUI
插件安装步骤如下所示(工作流已放置文末口令获取):
? 通过ComfyUI
插件管理器搜索ComfyUI-MuseV
,并点击安装插件。
? 下载模型TMElyralab/MuseV
,并放置在ComfyUI/models/diffusers
目录下。模型下载地址:https://huggingface.co/TMElyralab/MuseV/tree/main。或者在ComfyUI目录位置使用下列`huggingface-cli`命令下载:
huggingface-cli download --resume-download TMElyralab/MuseV --local-dir ./models/diffusers/TMElyralab/MuseV
? 导入工作流并重启ComfyUI
软件。
(masterpiece, best quality, highres:1), peaceful beautiful sea scene
(masterpiece, best quality, highres:1), playing guitar
(masterpiece, best quality, highres:1), The wind rises,the hut Shake from side to side
(masterpiece, best quality, highres:1), sing
从最后一副图能够看出对于复杂场景,手舞动的质量可能存在不流畅,需要提示词和图片选择配合。
该插件还包含Video到Video的工作流,也一同放置到文末工作流网盘中。笔者测试感受需要输入视频、输入图像、提示语的配合比较强才行,待下次分享,感兴趣同学也可以自行体验。
? github:https://github.com/TMElyralab/MuseV
? huggingface:https://huggingface.co/TMElyralab/MuseV
? ComfyUI-MuseV:https://github.com/chaojie/ComfyUI-MuseV
? 工作流:关注公众号私信口令【ComfyUI-MuseV】获取
更多推荐文章:
感兴趣加入[AGI技术交流群]+V
如果觉得文章不错,就点下赞与在看