今天分享几组本周发布的AI工具:
ChatGPT 桌面端
本周,ChatGPT 终于发布了 Windows 客户端程序。目前,ChatGPT Plus、企业版、团队版和教育版用户已经可以开始下载 Windows 桌面应用程序的早期版本。安装完成后,使用 Alt + Space 快捷键即可快速访问。OpenAI 还发布了成本更低的 GPT-4.0 Audio Preview 模型,不但能够根据文本生成语音响应,还可以分析音频输入的情感和语音互动。此外,有迹象表明,微软 Azure OpenAI 即将停止个人开发者服务。通过记者证实,微软表示企业用户仍能继续使用该服务,个人则会失去唯一合法使用 OpenAI 的渠道。
Meta Movie 模型
本周,Meta 开源了 MovieGen 视频生成模型,对应的两个测试数据集也是业界最大规模、最全面的文本生成视频评估基准。数据集提供了 1,000 多个提示词,包含了人类活动、动物、物理现象等各种概念,对从业者和创作者都有帮助。Meta 在 10 月初首次发布了 MovieGen 模型,不但可以根据提示词创建逼真的视频和音频片段,还可以和 Sora 模型相媲美。预计该模型将于 2025 年初发布,大家可以关注。
Nvidia 新模型
本周,Nvidia 推出了具备 700 亿参数的 Lama 3.1 Nemetron 70B Instruct 开源模型,性能超越 Cloud Sonic 3.5 和 GPT-4.0。目前,该模型已经开放下载,使用 A100 或 H100 芯片,40G 以上的显存即可在本地推理。此外,Nvidia 还和 MIT、清华合作,发布了 Sanai 图像生成框架。Sanai 可以生成 4K 分辨率的图像,性能接近 Fluxtep 模型。其中,Sanai 0.6B 模型体积小,生成速度快,且可在 16G GPU 上部署,生成 1024 分辨率图像的时间不超过 1 秒。Sanai 的使命是开放高效轻量级模型,方便更多用户在本地进行图像生成。
Luma 新功能
本周,视频生成工具 Luma Dream Machine 推出了一种新模式,可以基于表情包生成视频。该模式的发布将让短视频创作变得更加有趣。Luma 的 emoji 功能不但支持单一表情,还可根据多个组合表情生成富有创意的视频。
Virtual wife
这是一个基于大语言模型创建的二次元数字人项目,非常适合在 B 站直播使用。该工具不但支持角色替换,还支持文本驱动表情,以及中文的长短期记忆。用户可以根据需要切换 LLM 和 TTS 工具。人物模型可以在 World 下载并保存到对应的文件夹,用户还可以自行配置语言模型、记忆模块和对话模式。Virtual wife可以通过 Docker 快速部署,感兴趣的同学可以尝试。
Hallo 2
本周,复旦大学发布了 Hallo 2 模型。该模型能够基于一张静态人物头像,通过语音驱动将其转换为 4K 分辨率的视频,最长可持续一小时。Hallo 2 不但可以实现精准的唇形匹配,还能有效解决生成视频不清晰的问题。此外,该模型还支持多种风格的图像合成,用户只需提供音频样本即可生成视频。视频中的人物可以实现眨眼、微笑等动作。
SUNO
本周,Suno 推出了 scenes 功能,可以基于一张图像或视频生成符合当前场景的歌曲。在 iOS 端下载或更新应用程序即可使用该功能。scenes 能够读取图像或视频中的场景和主要人物,并将其转换为押韵的歌曲。
SANA
Sana是由NVIDIA、麻省理工学院、清华大学等团队开发的文本到图像框架,可以有效生成高达 4096 × 4096 分辨率的图像。Sana 可以以极快的速度合成具有强大文本图像对齐功能的高分辨率、高质量图像,可部署在笔记本电脑 GPU 上。核心设计包括:深度压缩自动编码器:与传统的AE仅将图像压缩8倍不同,它训练了一个可以将图像压缩32倍的AE,有效减少了潜在标记的数量,从而生成超高4K分辨率。