字节“养蛊内斗” | 豆包竟然也开始做“图片&视频”大模型,即梦AI与Seedream谁更胜一筹?

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!




项目主页-https://team.doubao.com/zh/tech/seedream3_0

2.0体验链接-https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenImage

论文链接-https://arxiv.org/pdf/2504.11346



"豆包和即梦AI这两个词对懂AIGC的人来说应该都不陌生。豆包App早已上很多人根本离不开的一个利器,可以帮助大家轻松解决生活中的很多问题。做AI生图与AI生视频的朋友们对即梦AI应该比较熟悉。然而,豆包团队并不是只做大语言模型,它也开始做图片和视频大模型,并且在很短的时间内迭代了几个版本,很快跻身于第一梯队的阵容。这两个都是字节的团队,很明显豆包与即梦AI存在着竞争关系,本文小编就来聊聊我自己的浅显看法。由于即梦AI大家都比较熟悉,文章更多的篇幅是用来介绍豆包的Seedream 3.0模型。"



01-即梦 VS 豆包

    即梦AI是字节旗下的一个AI创作平台,可激发艺术创意、提升绘画和视频创作体验。您可以利用AI智能,将想象变为现实。即梦AI支持文字绘图、文字生成视频和图片生成视频,并提供创作灵感。即梦近期刚更新了其图片生成模型3.0,文生图文效果得到了极大的提升。

    豆包是字节旗下的大模型自研团队,依托于“火山引擎”。其目标是打造“更强模型、更低价格、更易落地”的大模型。可能很多朋友都下载过豆包App,很多可能只知道豆包团队是做大语言模型的。然而出乎意料的是,豆包团队也有自己的“视频生成模型”、“文生图模型”、“图生图模型”。

    很明显这两个团队之间的业务有很大的重叠,之间存在着激烈的竞争关系。不过豆包团队更偏向研究一些,即梦团队更产业化一些。哈哈,一个公司里面养这么大的两个大模型团队,可能也就“字节”有这魄力吧!我相信很多人对即梦AI都比较熟悉,剩下的篇幅我们重点聊聊豆包的Seedream 3.0!

02-Seedream3.0简介

    Seedream 3.0是一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强:支持原生 2K 分辨率输出;响应速度更快;小字更准,文本排版效果增强;美感&结构提升,保真度和细节表现较好,在多项评估中排名领先。

    相较于 Seedream 2.0 ,Seedream3.0依靠了多项创新性技术来应对现有的挑战,包括:生成图像分辨率受限、复杂属性生成困难、精细文字渲染不准、视觉美观及保真度不足等方面的问题。主要表现为以下四个方面:  

  • 在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。

  •  在预训练阶段,作者对 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐:1) 混合分辨率训练;2) 跨模态旋转位置编码(RoPE);3) 表征对齐损失;4) 分辨率感知的时间步采样。

  •  在后训练阶段,作者利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。

  •  在模型加速阶段,作者采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。

03-Seedream3.0应用场景
03.01-小字&长文本生成
    如上图所示,我们可以发现:Seedream3.0在小字、长文本场景下生成的图片美感更高,生成更精确。
03.02-人像&影像生成
    如上图所示,我们可以发现:Seedream3.0生成的人像图片更加真实,具有很强的影像美感,视觉沉浸度更高。
03.03-2K高清大片
04-Seedream3.0改进点

    相较于 Seedream 2.0,Seedream 3.0 在多个维度实现显著突破:

  • 原生高分辨率:原生支持 2K 分辨率输出,无需后期处理,还兼容更高分辨率并适配各种宽高比。

  • 综合能力提升:在文本与图像对齐、构图结构设计、美学质量和文本渲染能力等方面有显著提升。

  • 文本渲染性能大幅增强:在小字体生成、汉字准确性和高审美长文本排版方面表现突出。模型挑战了小文本生成和长文本布局的业界难题,平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力,可轻松实现设计师级海报创作,融合多样字体、风格与版式。

  • 美学改进:图像美学质量有显著提升,在电影级场景呈现较好表现,人像生成更具真实质感。

  • 极速生成体验:通过多项创新加速技术,推理成本大幅降低,1K 分辨率端到端生成耗时仅需 3 秒。

05-Seedream3.0实现细节
05.01-模型架构详解
    上图展示了Seedream2.0的整体架构,Seedream3.0核心架构设计继承了Seedream 2.0,它采用MMDiT来处理图像和文本标记,并捕捉两种模式之间的关系。作者增加了基础模型中的总参数,并在Seedream 3.0中引入了几项改进,从而增强了可扩展性、通用性和视觉语言对齐。详细的步骤如下所述:
  • 首先,将图片输入到一个VAE编码器中,并将其与输入噪声进行叠加,将叠加后的结果送入Patchify模块中;
  • 然后,将输入的文本提示同时输入到一个LLM和Glyph-ByT5+MLP模型中;
  • 接着,同时将Patchify输出、LLM输出、MLP输出分别进行图片嵌入与文本嵌入
  • 最后,将其输入到一个N个块的MMDiT模块中,并将输入条件输入其中,获得最终的输出结果。
05.02-模型训练阶段
    上图展示了该模型的训练阶段与推理阶段。详细的细节如下所述:
    在模型训练阶段中,总共包含4个阶段,1)模型预训练;2)模型连续训练;3)模型监督微调训练;4)模型反馈对齐训练。
    在模型推理阶段中,首先,对用户输入的文本提示进行Prompt工程;然后,将其送入一个文本编码中;接着,将结果传入DiT模块中;最后,将输出送入一个Refiner模块输出最终的结果。下图展示了在不同阶段下的模型效果:

06-Seedream3.0性能评估

06.01-主观效果性能评估

文本提示词两个男孩在鬼屋里。前面的男孩看起来很害怕,而后面的男孩似乎很冷静。

文本提示词两名14岁的男孩穿着Y2K风格的服装,在舞台上表演单手地面动作,作为霹雳舞表演的一部分。
文本提示词一个女孩,一只眼睛是紫色的,那一边的头发是蓝色的。另一只眼睛是蓝色的,那一边的头发是紫色的。现实主义。
    上面几张图展示了该模型与多个SOTA文生图模型(Seedream2.0、FLUX-1.1 Pro、Midjourney v6.1、Imagen3)在想爱你沟通的文本提示下的生成效果。通过仔细观察与分析,我们不难发现:该模型生成的图片文本对齐能力更强、效果更逼真。
顶部提示词:贴纸系列设计:贴纸1:一只猴子正在咧嘴笑,下面写着“快乐”。贴纸2:猴子戴着下面写着“酷”的太阳镜。贴纸3:猴子拿着一朵花,脸上带着害羞的表情,下面写着“害羞”。贴纸4:猴子看起来很惊讶,下面写着“惊喜”。
底部提示词:赤壁人物、女孩、全身、街舞、三视图绘画。
文本提示词:一个迷人而充满活力的3D渲染图像,有七个色彩缤纷、装饰华丽的毡杯,每个杯子都装饰着一颗心,并显示代表一周中每一天的粗体文字:“月亮”、“火星”、“镜花”、“胡埃”、“维尔内斯”、“sbado”、“多明戈”。这些生动的杯子里充满了异想天开的感觉烟雾,它们优雅地漂浮在梦幻般迷人的氛围中。各种各样的漂浮花朵为场景增添了深度和维度,而柔和的淡蓝色背景则与设计相得益彰。时尚、插图、排版、3d渲染、绘画。
    上图该模型与其它SOTA模型在人像场景下的生成效果,Seedream 3.0有效地消除了人工外观。在肖像生成中,皮肤纹理现在表现出逼真的特征,如皱纹、细毛和疤痕,与天然人类皮肤非常相似。同时,Seedream 3.0仍然可以在提示时生成无瑕的皮肤纹理。此外,虽然Midjourney v6.1生成的肖像的纹理似乎略低于Seedream 3.0,但它在传达情感表达方面表现出色,这有助于它的高排名。未来的版本将旨在进一步增强这两个方面。
    上图展示了该模型与SeedEdit 1.6、GPT-4o和Gemini-2.0模型的图像编辑效果。第一行提示词:换个蓝紫色短发。第二行提示词:变成彩色图片。

06.02-客观效果性能评估

    上图展示了Seedream 3.0与多个SOTA模型的多项客观指标评估结果。Seedream 3.0在所有评估方面都表现出色。此外,Seedream 3.0在人工分析文本到图像模型排行榜上排名第一,在发布时17.0K的出场次数下,Arena ELO得分为1158。

07-个人闲谈&思考

    或许是我们的思考与眼界有限,还读不懂字节的即梦AI与豆包团队。能确定的是他们的业务之间有一些交叠,豆包团队主要业务还是大模型,图片和视频只是为了多模态大模型服务;即梦团队专业做图片和视频模型。比较可怕的是,豆包团队的图片和视频的模型一出场便是惊艳全场,更是在短短的一段时间就跻身第一梯队的行业,这从侧面暴露了其强大的底蕴!

    然而,即梦AI一直都被“可灵AI”卡着脖子走,可能字节想要继续在图片与视频领域分可灵AI的一杯羹,所以加大了研发力量与团队。这只是小编个人感想而已,欢迎大家一起在评论区交流与探讨!

08-文末彩蛋

    “前沿AIGC算法”与“AI生成图片”2群限时开放!欢迎对SD、MJ、可灵AI、即梦AI、Runway Gen3、Sora等文生图、图生图、文生视频、图生视频、大模型、多模态等感兴趣的朋友进群交流。群内禁止一切广告,一经发现,立马移除,并永久加入黑名单!

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们