AIGC每周精选-时序预测大模型调研

Unified Training of Universal Time Series Forecasting Transformers

想用各类时间序列数据联合训练一个统一的时间序列大模型,存在几个关键挑战。首先是不同时间序列分布差异很大,尤其是频域的分布,小时、天级、周级等不同分布差异很大。其次,不同时间序列的变量数量不一样,模型如何能够兼容不同的输入输出变量数量。

为了解决上述问题,本文提出的方法如下。在模型输入上,为了让模型兼容不同的变量数量,将多变量时间序列拼接到一起,打平成一个序列,并且增加[MASK]字符填充待预测的位置。在模型结构上,基于多粒度patch建模哦,每个时间序列分割成不同粒度的patch,兼容不同频率的时间序列。模型的主体结构是Transformer,由于对多变量时间序列进行了拼接,因此在Transformer的设计上文中进行了修改,引入了在NLP大模型中常用的RoPE作为位置编码,并且用1和0标识是否是同序列内的元素,对于0或1两种情况分别配置一个可学习的参数。


Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning

在预训练方式上,之前的时间序列大模型一般采用对比学习和重构MSE两种类型的损失函数。其中重构MSE有两种实现方式,一种是进行时间序列每个时间步的预测,或者基于patch的方式对时间序列部分patch进行mask然后进行还原。本文提出为了更贴近原始NLP大模型中的训练方式,充分发挥大模型作用,采用了next patch prediction的任务,对于每个时间序列,分割成patch后,不断预测下一个patch,每个patch的预测结果使用MSE计算loss,这就和NLP中的next token prediction比较相似。


Tiny Time Mixer

IBM Research:轻量级时间序列大模型提升Few-shot Learning时序预测效果

针对这个问题,IBM Research近期提出了一种Tiny Time Mixer预训练模型,在240万条时间序列样本上进行预训练,参数量小于100万,并且在zero-shot learning、few-shot learning等任务中取得了10%以上的效果提升


TimeGPT

https://github.com/Nixtla/nixtla

TimeGPT可以处理多变量时间序列、不规则时间戳,并实现共形预测,与使用laglama等固定分布相比,这是一种更稳健的量化不确定性的方式


Lag-Llama

《Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting》中,Lag-Llama作为单变量概率预测的通用大模型提出

Lag-Llama在来自不同领域的27个时间序列数据集上进行了训练,如能源、交通、经济等。

数据包含7965个单变量时间序列,总计约3.52亿个令牌。

所有数据集都是开源的,包括ethth, Exchange和Weather等


TFT (Temporal Fusion Transformers)

TFT (Temporal Fusion Transformers)是针对多步预测任务的一种Transformer模型,并且具有很好的可解释性。


AutoTimes

研究者提出的AutoTimes确保了与LLM能力的一致性,从而使自回归预测器作为时间序列的基础模型。这种一致性包括:

(1)训练和推理:采用与LLM获取一致的训练目标,即下一个标记预测,以建立包含局部序列变化的时间序列段标记化。在推理过程中,利用LLM的可变上下文长度和自回归生成能力来处理任意长度的序列;

(2)参数:利用LLM的标记转换,这是通过在大量文本语料库上进行训练来参数化的,并将其应用于时间序列标记。从技术上讲,研究者冻结了重新利用的LLM的Transformer层,并建立了时间序列的标记器和去标记器,占总参数的最多0.1%。除了提高适应效率外,还旨在实现时间序列的同胚嵌入,以便在标记级别无缝地与文本混合。

在此基础上,研究者引入了下图(b)所示的标记级提示,它利用时间序列的关联文本锚点(时间戳)来进一步增强预测。虽然之前连接不同模态的序列级提示可能导致序列长度过长和标记差异,但研究者的预测器结合标记级提示和上下文学习可以利用指导性文本和时间序列,以应对更广泛的预测场景。


https://github.com/thuml/AutoTimes


MOMENT

MOMENT是美国卡内基梅隆大学(CMU)的研究者发布的首个开源大型预训练时间序列模型系列。这个系列的模型(1)可以作为多样化时间序列分析任务(如预测、分类、异常检测和插补等)的基础构建块;(2)即插即用,即无需(或只需少量)特定任务的样本(例如,零样本预测、少样本分类等);(3)可以使用分布内和任务特定数据进行调优,以提高性能,详细对比了GPT4TS与timenet


iTransformer

Lag-LLaMA、Time-LLM、Chronos和Moirai

在这个背景下,Transformer 架构以多种形态被应用于时间序列预测领域,其中 PatchTST 模型在长期预测方面展现出了卓越的性能。


From Similarity to Superiority: Channel Clustering for Time Series Forecasting

元时间序列建模问题中,各个变量(channel)之间是独立建模还是联合建模,是近期的一个研究焦点。以PatchTST为代表的channel independent建模方法,将多元序列看成多个单元序列,每个单元序列分别建模,取得了很好的效果,也有一些工作验证了多元序列使用channel dependent进行联合建模会造成严重的过拟合问题。这导致现在很多方法都采用了独立建模来将多变量序列建模简化成单变量序列建模。

然而,多变量之间的关系一定会带来一些信息增益,忽略这部分信息,模型就缺少了各个变量之间互相影响关系的信息输入,会造成一定的效果损失。因此核心问题在于,如何既能将多变量之间的关系引入模型,同时又能缓解多变量联合建模的过拟合问题。

针对上述问题,本文提出了一种融合channel independent和channel dependent的建模方法,核心思路是将各个变量序列进行聚类,根据变量间的相似程度,选择channel dependent建模的强度。其前提假设为,越相似的序列,通过channel dependent建模方法能带来的信息增益越大;反之,如果两个序列完全没关系,那么引入channel dependent的建模反而会带来过拟合问题,就更应用channel independent的方式进行独立建模


LLMTS (LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters)

LLM4TS是一篇关于时间序列预测的论文,该论文介绍了一种利用预训练的大型语言模型(LLM)来提高时间序列预测效果的方法。论文中提出了LLM4TS框架,该框架包括两个阶段的微调策略:时间序列对齐阶段和预测微调阶段。在时间序列对齐阶段,利用自回归方法将预训练的LLM与时间序列数据进行对齐。在预测微调阶段,针对时间序列预测任务进行微调。此外,该框架还采用了一种新颖的多层次聚合方法,将不同尺度的时间信息整合起来。

该论文的实验结果表明,LLM4TS相较于其他现有的方法,在完全数据情况下优于从头训练的模型,并在少样本场景中平均改进了6.84%的均方误差。因此,LLM4TS可以作为一种数据高效的时间序列预测方法。参考了LLM-VL策略,大模型+时序编码器 训练时序预测的模型,但是这种真的可以嘛,先阶段估计还在时序数据编码效率与对齐上面优化


GPT4TS

论文探讨了使用预训练语言模型(Pretrained LM)来进行通用时间序列分析的方法和结果。

根据论文中的实验结果,作者使用了预训练的自然语言处理(NLP)或图像模型,并进行微调,发现这些模型在所有主要的时间序列分析任务中可以达到与当前最先进方法相媲美的性能

论文指出,通用时间序列分析领域在预训练模型的发展方面存在一个主要挑战,即缺乏足够的训练数据5。与NLP和计算机视觉(CV)不同,通用时间序列分析领域目前还没有取得类似的进展


Time-LLM: Time Series Forecasting by Reprogramming Large Language Models

Time-LLM的一个重要特点,即通过重新编程输入的时间序列,使用文本原型来对齐与语言模型的两种模态。Time-LLM是一个重新编程框架,旨在将大型语言模型重新用于时间序列预测,并保持骨干语言模型不变。研究表明,时间序列分析(例如预测)可以被视为另一个可以通过现成的语言模型有效处理的“语言任务”。Time-LLM是一个强大的时间序列学习器,优于最先进的专门的预测模型

论文中还提到,时间序列预测在许多现实世界的动态系统中具有重要意义,并且已经得到广泛研究。与自然语言处理(NLP)和计算机视觉(CV)不同,时间序列预测模型通常是专门设计的,需要针对不同任务和应用进行不同设计的模型

参考文献

https://mp.weixin.qq.com/s/qvfdQsAYiIqcjibriDU9OQ  prompt时序

https://mp.weixin.qq.com/s/Mjf-R4vCZmrxbXWqKvBXeg

AutoTimes:利用LLM重新定义自回归时间序列预测 https://mp.weixin.qq.com/s/b3vLNKhNKagzrTYbltFI7g

https://mp.weixin.qq.com/s/8AxkAeLCLxNL5l9IDgGCLQ

MOMENT:CMU发布首个开源的时间序列基础大模型

https://mp.weixin.qq.com/s/O2vqaBqVCdO2Y5Gq-0e9Qw

耶鲁&斯坦福找到提升多元时序预测的技巧