10月第三周AI资讯：chatgpt桌面版来了

今天分享几组本周发布的AI工具：

ChatGPT 桌面端

本周，ChatGPT 终于发布了 Windows 客户端程序。目前，ChatGPT Plus、企业版、团队版和教育版用户已经可以开始下载 Windows 桌面应用程序的早期版本。安装完成后，使用 Alt + Space 快捷键即可快速访问。OpenAI 还发布了成本更低的 GPT-4.0 Audio Preview 模型，不但能够根据文本生成语音响应，还可以分析音频输入的情感和语音互动。此外，有迹象表明，微软 Azure OpenAI 即将停止个人开发者服务。通过记者证实，微软表示企业用户仍能继续使用该服务，个人则会失去唯一合法使用 OpenAI 的渠道。

Meta Movie 模型

本周，Meta 开源了 MovieGen 视频生成模型，对应的两个测试数据集也是业界最大规模、最全面的文本生成视频评估基准。数据集提供了 1,000 多个提示词，包含了人类活动、动物、物理现象等各种概念，对从业者和创作者都有帮助。Meta 在 10 月初首次发布了 MovieGen 模型，不但可以根据提示词创建逼真的视频和音频片段，还可以和 Sora 模型相媲美。预计该模型将于 2025 年初发布，大家可以关注。

Nvidia 新模型

本周，Nvidia 推出了具备 700 亿参数的 Lama 3.1 Nemetron 70B Instruct 开源模型，性能超越 Cloud Sonic 3.5 和 GPT-4.0。目前，该模型已经开放下载，使用 A100 或 H100 芯片，40G 以上的显存即可在本地推理。此外，Nvidia 还和 MIT、清华合作，发布了 Sanai 图像生成框架。Sanai 可以生成 4K 分辨率的图像，性能接近 Fluxtep 模型。其中，Sanai 0.6B 模型体积小，生成速度快，且可在 16G GPU 上部署，生成 1024 分辨率图像的时间不超过 1 秒。Sanai 的使命是开放高效轻量级模型，方便更多用户在本地进行图像生成。

Luma 新功能

本周，视频生成工具 Luma Dream Machine 推出了一种新模式，可以基于表情包生成视频。该模式的发布将让短视频创作变得更加有趣。Luma 的 emoji 功能不但支持单一表情，还可根据多个组合表情生成富有创意的视频。

Virtual wife

这是一个基于大语言模型创建的二次元数字人项目，非常适合在 B 站直播使用。该工具不但支持角色替换，还支持文本驱动表情，以及中文的长短期记忆。用户可以根据需要切换 LLM 和 TTS 工具。人物模型可以在 World 下载并保存到对应的文件夹，用户还可以自行配置语言模型、记忆模块和对话模式。Virtual wife可以通过 Docker 快速部署，感兴趣的同学可以尝试。

Hallo 2

本周，复旦大学发布了 Hallo 2 模型。该模型能够基于一张静态人物头像，通过语音驱动将其转换为 4K 分辨率的视频，最长可持续一小时。Hallo 2 不但可以实现精准的唇形匹配，还能有效解决生成视频不清晰的问题。此外，该模型还支持多种风格的图像合成，用户只需提供音频样本即可生成视频。视频中的人物可以实现眨眼、微笑等动作。

SUNO

本周，Suno 推出了 scenes 功能，可以基于一张图像或视频生成符合当前场景的歌曲。在 iOS 端下载或更新应用程序即可使用该功能。scenes 能够读取图像或视频中的场景和主要人物，并将其转换为押韵的歌曲。

SANA

Sana是由NVIDIA、麻省理工学院、清华大学等团队开发的文本到图像框架，可以有效生成高达 4096 × 4096 分辨率的图像。Sana 可以以极快的速度合成具有强大文本图像对齐功能的高分辨率、高质量图像，可部署在笔记本电脑 GPU 上。核心设计包括：深度压缩自动编码器：与传统的AE仅将图像压缩8倍不同，它训练了一个可以将图像压缩32倍的AE，有效减少了潜在标记的数量，从而生成超高4K分辨率。