打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://team.doubao.com/zh/tech/seedream3_0
2.0体验链接-https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenImage
论文链接-https://arxiv.org/pdf/2504.11346
"豆包和即梦AI这两个词对懂AIGC的人来说应该都不陌生。豆包App早已上很多人根本离不开的一个利器,可以帮助大家轻松解决生活中的很多问题。做AI生图与AI生视频的朋友们对即梦AI应该比较熟悉。然而,豆包团队并不是只做大语言模型,它也开始做图片和视频大模型,并且在很短的时间内迭代了几个版本,很快跻身于第一梯队的阵容。这两个都是字节的团队,很明显豆包与即梦AI存在着竞争关系,本文小编就来聊聊我自己的浅显看法。由于即梦AI大家都比较熟悉,文章更多的篇幅是用来介绍豆包的Seedream 3.0模型。"
01-即梦 VS 豆包
即梦AI是字节旗下的一个AI创作平台,可激发艺术创意、提升绘画和视频创作体验。您可以利用AI智能,将想象变为现实。即梦AI支持文字绘图、文字生成视频和图片生成视频,并提供创作灵感。即梦近期刚更新了其图片生成模型3.0,文生图文效果得到了极大的提升。
豆包是字节旗下的大模型自研团队,依托于“火山引擎”。其目标是打造“更强模型、更低价格、更易落地”的大模型。可能很多朋友都下载过豆包App,很多可能只知道豆包团队是做大语言模型的。然而出乎意料的是,豆包团队也有自己的“视频生成模型”、“文生图模型”、“图生图模型”。
很明显这两个团队之间的业务有很大的重叠,之间存在着激烈的竞争关系。不过豆包团队更偏向研究一些,即梦团队更产业化一些。哈哈,一个公司里面养这么大的两个大模型团队,可能也就“字节”有这魄力吧!我相信很多人对即梦AI都比较熟悉,剩下的篇幅我们重点聊聊豆包的Seedream 3.0!
02-Seedream3.0简介
相较于 Seedream 2.0 ,Seedream3.0依靠了多项创新性技术来应对现有的挑战,包括:生成图像分辨率受限、复杂属性生成困难、精细文字渲染不准、视觉美观及保真度不足等方面的问题。主要表现为以下四个方面:
在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。
在预训练阶段,作者对 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐:1) 混合分辨率训练;2) 跨模态旋转位置编码(RoPE);3) 表征对齐损失;4) 分辨率感知的时间步采样。
在后训练阶段,作者利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。
在模型加速阶段,作者采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。
相较于 Seedream 2.0,Seedream 3.0 在多个维度实现显著突破:
原生高分辨率:原生支持 2K 分辨率输出,无需后期处理,还兼容更高分辨率并适配各种宽高比。
综合能力提升:在文本与图像对齐、构图结构设计、美学质量和文本渲染能力等方面有显著提升。
文本渲染性能大幅增强:在小字体生成、汉字准确性和高审美长文本排版方面表现突出。模型挑战了小文本生成和长文本布局的业界难题,平面设计输出效果超越了 Canva 等平台的人工设计模板。基于精准且高审美的文字生成能力,可轻松实现设计师级海报创作,融合多样字体、风格与版式。
美学改进:图像美学质量有显著提升,在电影级场景呈现较好表现,人像生成更具真实质感。
极速生成体验:通过多项创新加速技术,推理成本大幅降低,1K 分辨率端到端生成耗时仅需 3 秒。
06-Seedream3.0性能评估
06.01-主观效果性能评估
文本提示词:两个男孩在鬼屋里。前面的男孩看起来很害怕,而后面的男孩似乎很冷静。
06.02-客观效果性能评估
上图展示了Seedream 3.0与多个SOTA模型的多项客观指标评估结果。Seedream 3.0在所有评估方面都表现出色。此外,Seedream 3.0在人工分析文本到图像模型排行榜上排名第一,在发布时17.0K的出场次数下,Arena ELO得分为1158。
07-个人闲谈&思考
或许是我们的思考与眼界有限,还读不懂字节的即梦AI与豆包团队。能确定的是他们的业务之间有一些交叠,豆包团队主要业务还是大模型,图片和视频只是为了多模态大模型服务;即梦团队专业做图片和视频模型。比较可怕的是,豆包团队的图片和视频的模型一出场便是惊艳全场,更是在短短的一段时间就跻身第一梯队的行业,这从侧面暴露了其强大的底蕴!
然而,即梦AI一直都被“可灵AI”卡着脖子走,可能字节想要继续在图片与视频领域分可灵AI的一杯羹,所以加大了研发力量与团队。这只是小编个人感想而已,欢迎大家一起在评论区交流与探讨!
08-文末彩蛋
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!