打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
“ 很多孩子们都是通过听父母讲一些图文并茂的故事来接触世界,故事在孩子们的童年中扮演者至关重要的角色。近年来,由于图像生成和开放式文本生成技术的显著进步,人们对生成交织图像文本内容的兴趣激增。这导致了多模态故事生成任务的出现,这是一项有趣而有价值的任务,涉及以交错的方式生成叙事文本和生动的图像。本文提出了SEED Story,这是一种利用多模态大型语言模型(MLLM)生成扩展多模态故事的新方法。该模型建立在MLLM强大的理解能力之上,预测文本标记和视觉标记,随后使用经过调整的视觉去标记器对其进行处理,以生成具有一致字符和风格的图像。作者进一步提出了多模态注意力下沉机制,利用高效的自回归方式生成多达25个序列(只有10个用于训练)的故事。 此外,作者还提供了一个名为StoryStream的大规模高分辨率数据集,用于训练该模型,并用于从多个方面来定量评估多模态故事生成任务。”
代码链接-https://github.com/TencentARC/SEED-Story
论文链接-https://arxiv.org/pdf/2407.08683
01-长故事生成任务发展历程
2023年6月,Liu, C., Wu, H., Zhong等人提出“Intelligent grimm–open-ended visual storytelling via latent diffusion models”算法。本文提出了一种基于学习的自回归图像生成模型,称为StoryGen,它具有一个新颖的视觉语言上下文模块,能够通过对相应的文本提示和前面的图像字幕对进行条件处理来生成当前帧。为了解决视觉叙事的数据短缺问题,作者从在线视频和开源电子书中收集成对的图像文本序列,建立处理管道,构建一个具有不同角色、故事情节和艺术风格的大规模数据集,名为StorySalon。定量实验和人类评估验证了StoryGen的优越性,证明了StoryGen可以在没有任何优化的情况下泛化到看不见的角色,并生成内容连贯、角色一致的图像序列。
02-SEED-Story算法背景
交错的图像文本数据在互联网上无处不在,其特征是多幅图像与一段文本交织在一起。近年来,由于图像生成和开放式文本生成技术的显著进步,人们对生成交织图像文本内容的兴趣激增。这导致了多模态故事生成任务的出现,这是一项有趣而有价值的任务,涉及以交错的方式生成叙事文本和生动的图像。这项任务超越了传统的基于文本的讲故事方式,通过融合文本和视觉元素来丰富叙事,创造一种更身临其境的讲故事体验,在这种体验中,视觉元素和文本可以动态互动并相互补充。
然而,由于输入的复杂性和对输出质量的高要求,多模式故事生成带来了重大挑战。首先,这项任务需要彻底理解交织数据,其中文本不仅具有抽象性和叙事性,而且与复杂的图像深度交织在一起。该模型必须善于解读图像和文本之间的复杂关系,以保持连贯的叙事流。其次,这项任务不仅需要生成合理的文本情节,还需要生成在字符和风格上一致的视觉上引人入胜的图像。该模型应能够实现文本和视觉效果生成的连贯性,确保引人入胜的故事输出。
随着图像生成和开放式文本生成的快速发展,交织图像文本内容的创建已成为一个越来越有趣的领域。按照交错方式产生叙事文本和生动图像为特征的多模态故事生成已成为一项具有广泛应用价值和实用性的任务。然而,这项任务带来了重大挑战,因为它需要理解文本和图像之间复杂的相互作用,并能够生成连贯、上下文相关的文本和视觉效果的长序列。
本文提出了SEED Story,这是一种利用多模态大型语言模型(MLLM)生成扩展多模态故事的新方法。该模型建立在MLLM强大的理解能力之上,预测文本标记和视觉标记,随后使用经过调整的视觉去标记器对其进行处理,以生成具有一致字符和风格的图像。作者进一步提出了多模态注意力下沉机制,利用高效的自回归方式生成多达25个序列(只有10个用于训练)的故事。
此外,作者还提供了一个名为StoryStream的大规模高分辨率数据集,用于训练该模型,并用于从多个方面来定量评估多模态故事生成任务。
上图展示了SEED-Strory算法的整体训练流程。整个训练过程包含三个阶段。
在第一阶段,作者预训练了一个基于SDXL的去标记器,通过将预训练的ViT特征作为输入来重建图像。
在第二阶段,执行指令微调。即对随机长度的交错图像文本序列进行采样,并通过在可学习查询的输出隐藏状态和目标图像的ViT特征之间执行下一个单词预测和图像特征回归来训练MLLM。
通过观察与分析,我们可以发现:StoryStream数据集中的图片数量最多,图片分辨率最大,平均故事长度和文本长度最长!
# 克隆代码到本地
git clone https://github.com/TencentARC/SEED-Story.git
# 切换到该目录
cd SEED-Story
# 安装python三方依赖库
pip install -r requirements.txt
# 下载sdxl权重
wget https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
# 下载Qwen权重
wget https://huggingface.co/Qwen/Qwen-VL-Chat
# 使用以下脚本提取Qwen VL Chat中视觉编码器的权重
python3 src/tools/reload_qwen_vit.py
# 多模态故事生成
python3 src/inference/gen_george.py
# 利用多模态注意力下沉机制可视化故事
python3 src/inference/vis_george_sink.py
上表展示了该算法与几个SOTA方法(LDM、StoryGen)的FID与CLIP Score指标比较结果。通过观察与分析,我们可以发现:该算法在这两项指标上面都获得了最高的得分,与第二名之间拉开了较大的差距。
上图展示了SEED-Story在多模态故事生成任务上的定量评估结果。图a显示了FID分数的柱状图。图b、c、d分别展示了GPT-4V用于分别选择MM交织和SEED Story生成的首选结果。饼图显示获胜率,其中“平局”表示GPT-4V以相同的分数评估他们的结果。
图8.1-SEED-Story算法生成故事1效果展示
图8.2-SEED-Story算法生成故事2效果展示
图8.3-SEED-Story算法生成故事3效果展示
图8.5-SEED-Story算法生成故事5效果展示
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
欢迎你的加入,让我们一起交流、讨论与成长!
若二维码失效:关注公众号--》交流分享--》联系我们(备注:AI产品汇)
禁止私自转载,需要转载请先征求我的同意!