大模型《征服童心》 | 引爆“沉浸式故事续写”浪潮，打造全新的“故事创作”新体验！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

“ 很多孩子们都是通过听父母讲一些图文并茂的故事来接触世界，故事在孩子们的童年中扮演者至关重要的角色。近年来，由于图像生成和开放式文本生成技术的显著进步，人们对生成交织图像文本内容的兴趣激增。这导致了多模态故事生成任务的出现，这是一项有趣而有价值的任务，涉及以交错的方式生成叙事文本和生动的图像。本文提出了SEED Story，这是一种利用多模态大型语言模型（MLLM）生成扩展多模态故事的新方法。该模型建立在MLLM强大的理解能力之上，预测文本标记和视觉标记，随后使用经过调整的视觉去标记器对其进行处理，以生成具有一致字符和风格的图像。作者进一步提出了多模态注意力下沉机制，利用高效的自回归方式生成多达25个序列（只有10个用于训练）的故事。此外，作者还提供了一个名为StoryStream的大规模高分辨率数据集，用于训练该模型，并用于从多个方面来定量评估多模态故事生成任务。”

代码链接-https://github.com/TencentARC/SEED-Story

论文链接-https://arxiv.org/pdf/2407.08683

01-长故事生成任务发展历程

2023年6月，Liu, C., Wu, H., Zhong等人提出“Intelligent grimm–open-ended visual storytelling via latent diffusion models”算法。本文提出了一种基于学习的自回归图像生成模型，称为StoryGen，它具有一个新颖的视觉语言上下文模块，能够通过对相应的文本提示和前面的图像字幕对进行条件处理来生成当前帧。为了解决视觉叙事的数据短缺问题，作者从在线视频和开源电子书中收集成对的图像文本序列，建立处理管道，构建一个具有不同角色、故事情节和艺术风格的大规模数据集，名为StorySalon。定量实验和人类评估验证了StoryGen的优越性，证明了StoryGen可以在没有任何优化的情况下泛化到看不见的角色，并生成内容连贯、角色一致的图像序列。

2023年11月，Wen Wang，Canyu Zhao等人提出“AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort”算法。本文提出了一种自动化的故事可视化系统，该系统可以有效地生成多样化、高质量和一致的故事图像集，而人机交互次数最少。具体来说，首先作者利用大型语言模型的理解和规划能力进行布局规划，然后利用大型文本到图像模型基于布局生成复杂的故事图像。作者根据经验发现，稀疏控制条件（如边界框）适用于布局规划，而密集控制条件（例如草图和关键点）适用于生成高质量的图像内容。为了两全其美，作者设计了一个密集条件生成模块，将简单的边界框布局转换为草图或关键点控制条件，用于最终图像生成，这不仅提高了图像质量，还允许简单直观的用户交互。此外，作者提出了一种简单而有效的方法来生成多视角一致的人物图像，消除了对人力收集或绘制人物图像的依赖。这使得该方法即使在只提供文本作为输入的情况下也能获得一致的故事可视化。

2024年5月，Yupeng Zhou, Daquan Zhou等人提出“StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation”算法。本文作者提出了一种新的自注意计算方法，称为一致自注意，该方法显著提高了生成图像之间的一致性，并以零样本的方式增强了普遍的基于预训练扩散的文生图模型。与对表示单个图像的标记进行操作的标准自注意不同，在标记相似性矩阵计算和标记合并期间，一致自注意合并了来自参考图像的采样参考标记。采样的令牌共享相同的Q-K-V权重集合，因此不需要额外的训练。为了将该方法扩展到视频生成任务中，作者进一步引入了一个新的语义时空运动预测模块，称为语义运动预测器。它被训练来估计语义空间中两个所提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频，这些视频比仅基于潜在空间的模块要稳定得多，尤其是在长视频生成的情况下。通过合并这两个新颖的组件，StoryDiffusion框架可以可以准确生成一个基于文本的故事，其中包含一致的图像或视频，包含丰富的内容。StoryDiffusion是一项通过图像和视频的呈现在视觉故事生成方面进行的开创性探索工作。

02-SEED-Story算法背景

交错的图像文本数据在互联网上无处不在，其特征是多幅图像与一段文本交织在一起。近年来，由于图像生成和开放式文本生成技术的显著进步，人们对生成交织图像文本内容的兴趣激增。这导致了多模态故事生成任务的出现，这是一项有趣而有价值的任务，涉及以交错的方式生成叙事文本和生动的图像。这项任务超越了传统的基于文本的讲故事方式，通过融合文本和视觉元素来丰富叙事，创造一种更身临其境的讲故事体验，在这种体验中，视觉元素和文本可以动态互动并相互补充。

然而，由于输入的复杂性和对输出质量的高要求，多模式故事生成带来了重大挑战。首先，这项任务需要彻底理解交织数据，其中文本不仅具有抽象性和叙事性，而且与复杂的图像深度交织在一起。该模型必须善于解读图像和文本之间的复杂关系，以保持连贯的叙事流。其次，这项任务不仅需要生成合理的文本情节，还需要生成在字符和风格上一致的视觉上引人入胜的图像。该模型应能够实现文本和视觉效果生成的连贯性，确保引人入胜的故事输出。

近期，多模态大型语言模型（MLLM）在理解多模态数据方面表现出了强大的理解能力，这使得它们非常适合多模态故事中的交错图像文本内容。因此，本文引入了SEEDStory，这是一种基于MLLM的新方法，可以利用其理解能力，同时进一步使其具备生成与叙事文本一致的连贯图像的能力。

03-SEED-Story算法简介

随着图像生成和开放式文本生成的快速发展，交织图像文本内容的创建已成为一个越来越有趣的领域。按照交错方式产生叙事文本和生动图像为特征的多模态故事生成已成为一项具有广泛应用价值和实用性的任务。然而，这项任务带来了重大挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成连贯、上下文相关的文本和视觉效果的长序列。

本文提出了SEED Story，这是一种利用多模态大型语言模型（MLLM）生成扩展多模态故事的新方法。该模型建立在MLLM强大的理解能力之上，预测文本标记和视觉标记，随后使用经过调整的视觉去标记器对其进行处理，以生成具有一致字符和风格的图像。作者进一步提出了多模态注意力下沉机制，利用高效的自回归方式生成多达25个序列（只有10个用于训练）的故事。

此外，作者还提供了一个名为StoryStream的大规模高分辨率数据集，用于训练该模型，并用于从多个方面来定量评估多模态故事生成任务。

04-SEED-Story算法流程

上图展示了SEED-Strory算法的整体训练流程。整个训练过程包含三个阶段。

在第一阶段，作者预训练了一个基于SDXL的去标记器，通过将预训练的ViT特征作为输入来重建图像。
在第二阶段，执行指令微调。即对随机长度的交错图像文本序列进行采样，并通过在可学习查询的输出隐藏状态和目标图像的ViT特征之间执行下一个单词预测和图像特征回归来训练MLLM。
在第三阶段，MLLM的回归图像特征被输入去标记器来调整SDXL效果，从而增强生成图像中字符和风格的一致性。

05-StoryStream数据集简介

05.01-StoryStream样例展示

上图展示了StoryStream数据集和现有多模式故事生成数据集的部分数据样本。多模式故事序列由视觉上引人入胜的高分辨率图像和带下划线的详细叙事文本组成，它与现实世界的故事书非常相似。此外，它生成的故事长度更长、分辨率更大。

05.02-故事生成数据集评估

上图展示了多个不同的多模态故事生成数据集比较结果。该表分别提供了图像数量、分辨率、视觉故事总长度和每句平均文本长度的详细信息，这表明了文本的叙事细节。请注意，StorySalon有各种尺寸的图像，作者选择了这里展示的典型尺寸之一。

通过观察与分析，我们可以发现：StoryStream数据集中的图片数量最多，图片分辨率最大，平均故事长度和文本长度最长！

06-SEED-Story算法环境搭建与运行

06.01-搭建运行环境

# 克隆代码到本地git clone https://github.com/TencentARC/SEED-Story.git# 切换到该目录cd SEED-Story# 安装python三方依赖库pip install -r requirements.txt

06.02-运行Demo

# 下载sdxl权重wget https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0# 下载Qwen权重wget https://huggingface.co/Qwen/Qwen-VL-Chat# 使用以下脚本提取Qwen VL Chat中视觉编码器的权重python3 src/tools/reload_qwen_vit.py# 多模态故事生成python3 src/inference/gen_george.py# 利用多模态注意力下沉机制可视化故事python3 src/inference/vis_george_sink.py