6月第一周AI资讯

今天总结一下近一周重要的人工智能新闻。

一、可灵开启内测:https://kling.kuaishou.com/


本周,快手推出了类似Sora的可灵模型,引发了国内外网友的广泛关注。可灵框架采用了类似Sora的data结构,用Transformer代替了传统扩散模型中基于卷积网络的unit。快手还自研了一款3D时空联合注意力模块和3D VaE网络,用于实现更好的时空运动建模和更高效的影空间解码。进入应用市场,搜索并下载快手旗下的快影APP,选择AI视频生成,就可以申请试用资格。
可灵每次可以生成持续5秒钟的短视频。可灵目前仅支持文本生成视频功能,且能够生成模拟真实世界运动规律的视频,

二、midjourney更新:https://www.uisdc.com/midjourney-niji-6


本周,midjourney旗下的动漫生成模型MIDG V6完成了升级,增强了对中文和日语文本的渲染能力。在midjourney中开启NGV6模型,在提示词中使用双引号标注文本,即可生成带有完美文本显示的动漫作品。

三、DuckDuckGo聊天机器人:https://duckduckgo.com/


近期,DuckDuckGo浏览器推出了免费的chatbot,可以保证用户的隐私,无需注册即可使用。隐私保护是DuckDuckGo浏览器最大的卖点,用户的浏览记录不会被系统保存。目前市面上主流的浏览器都会根据用户搜索的词条为其推荐关联的商品和广告,因此很多用户都感觉自己的隐私已经被搜集或记录。对于非常看重个人隐私的用户来讲,DuckDuckGo浏览器则是一个不错的选择。DuckDuckGo同样支持新闻、图像、视频、地图等搜索功能,界面也非常简洁。Go chatbot为用户提供了四种主流的模型,均可免费使用,无需注册。在浏览器中集成聊天机器人将会成为未来的趋势。

四、StreamSpeech:https://github.com/ictnlp/StreamSpeech


StreamSpeech是一个同声传译无缝模型,可以同步执行语音识别、语音翻译和语音合成。StreamSpeech不但能将语音实时翻译成指定的语言,还能将语音内容实时转录为文本。用户可以同时获得语音和文本两种形式的翻译结果。最重要的是,转录和翻译可以同步进行,从而实现低延迟实时翻译。目前StreamSpeech已经发布了英文、法语、德语模型,感兴趣的同学可以了解详情。

五、Qwen 2模型:https://qwenlm.github.io/blog/qwen2/


本周,阿里推出了Qwen 2,性能超越市面上的所有开源模型。Qwen 2包含了5种不同尺寸的微调模型,其中72B模型具备128K上下文能力,对中文内容也有更好的支持。Qwen 272B模型在语言模型竞技场的综合得分已经超过Luma 370B和Mistral 8X 22B模型,成为最强的开源LLM。除了数学推理和代码能力的提升,Qwen 2具备更强的中文和多语言能力。目前Qwen 272B Instruct模型已经开源,且可以在ModelScope和Hugging Face下载。

六、Styler新功能:https://www.stylar.ai/home


本周,Styler增加了Insert Object功能,用户可以在参考图中导入任意图像,合成新的内容。该功能类似于PS的生成式填充。首先访问Styler,新建一个Project,并从本地上传一张图像。然后点击左侧的Insert Object选项,上传一张动漫人物。使用图像下方的套索工具,选定一个特定的区域,点击Stylize按钮即可,Styler每次会生成4张图像。此外,该功能还可用于服装替换,大家可以尝试。

七、Phased Consistency Model:https://github.com/G-U-N/Phased-Consistency-Model


PCM(也被称为相位一致性模型)可以生成多达16个步骤的高分辨率图像。在视频图像质量方面,PCM单步生成的结果优于之前发布的LCM模型。使用SDXL和SD 1.5模型,在一步推理生成的画质对比中,PCM要明显优于同级别工具。PCM最高支持16步推理,能够生成更为细致的图像。PCM可以和SDXL结合使用,在保证画质的前提下,大幅提高图像的生成速度。该工具还可用于提高短视频的生成速度,在和Animate LCM的对比中,PCM能够生成更高质量的视频。