散文網(wǎng) » 科技 »學(xué)習(xí) » 上篇 | 使用 Transformers 進(jìn)行概率時(shí)間序列預(yù)測(cè)

上篇 | 使用 Transformers 進(jìn)行概率時(shí)間序列預(yù)測(cè)

2023-02-22 15:05 作者:HuggingFace 0人讀過(guò) | 我要投稿

介紹

時(shí)間序列預(yù)測(cè)是一個(gè)重要的科學(xué)和商業(yè)問(wèn)題，因此最近通過(guò)使用基于深度學(xué)習(xí)?而不是經(jīng)典方法的模型也涌現(xiàn)出諸多創(chuàng)新。ARIMA 等經(jīng)典方法與新穎的深度學(xué)習(xí)方法之間的一個(gè)重要區(qū)別如下。

關(guān)于基于深度學(xué)習(xí)進(jìn)行時(shí)間序列預(yù)測(cè)的論文:?https://dl.acm.org/doi/abs/10.1145/3533382
《預(yù)測(cè): 方法與實(shí)踐》在線課本的中文版:?https://otexts.com/fppcn/

概率預(yù)測(cè)

通常，經(jīng)典方法針對(duì)數(shù)據(jù)集中的每個(gè)時(shí)間序列單獨(dú)擬合。這些通常被稱為“單一”或“局部”方法。然而，當(dāng)處理某些應(yīng)用程序的大量時(shí)間序列時(shí)，在所有可用時(shí)間序列上訓(xùn)練一個(gè)“全局”模型是有益的，這使模型能夠從許多不同的來(lái)源學(xué)習(xí)潛在的表示。

一些經(jīng)典方法是點(diǎn)值的 (point-valued)(意思是每個(gè)時(shí)間步只輸出一個(gè)值)，并且通過(guò)最小化關(guān)于基本事實(shí)數(shù)據(jù)的 L2 或 L1 類型的損失來(lái)訓(xùn)練模型。然而，由于預(yù)測(cè)經(jīng)常用于實(shí)際決策流程中，甚至在循環(huán)中有人的干預(yù)，讓模型同時(shí)也提供預(yù)測(cè)的不確定性更加有益。這也稱為“概率預(yù)測(cè)”，而不是“點(diǎn)預(yù)測(cè)”。這需要對(duì)可以采樣的概率分布進(jìn)行建模。

所以簡(jiǎn)而言之，我們希望訓(xùn)練全局概率模型，而不是訓(xùn)練局部點(diǎn)預(yù)測(cè)模型。深度學(xué)習(xí)非常適合這一點(diǎn)，因?yàn)樯窠?jīng)網(wǎng)絡(luò)可以從幾個(gè)相關(guān)的時(shí)間序列中學(xué)習(xí)表示，并對(duì)數(shù)據(jù)的不確定性進(jìn)行建模。

在概率設(shè)定中學(xué)習(xí)某些選定參數(shù)分布的未來(lái)參數(shù)很常見(jiàn)，例如高斯分布 (Gaussian) 或 Student-T，或者學(xué)習(xí)條件分位數(shù)函數(shù) (conditional quantile function)，或使用適應(yīng)時(shí)間序列設(shè)置的共型預(yù)測(cè) (Conformal Prediction) 框架。方法的選擇不會(huì)影響到建模，因此通常可以將其視為另一個(gè)超參數(shù)。通過(guò)采用經(jīng)驗(yàn)均值或中值，人們總是可以將概率模型轉(zhuǎn)變?yōu)辄c(diǎn)預(yù)測(cè)模型。

時(shí)間序列 Transformer

正如人們所想象的那樣，在對(duì)本來(lái)就連續(xù)的時(shí)間序列數(shù)據(jù)建模方面，研究人員提出了使用循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) (如 LSTM 或 GRU) 或卷積網(wǎng)絡(luò) (CNN) 的模型，或利用最近興起的基于 Transformer 的訓(xùn)練方法，都很自然地適合時(shí)間序列預(yù)測(cè)場(chǎng)景。

在這篇博文中，我們將利用傳統(tǒng) vanilla Transformer?(參考 Vaswani 等 2017 年發(fā)表的論文)?進(jìn)行單變量概率預(yù)測(cè) (univariate probabilistic forecasting) 任務(wù) (即預(yù)測(cè)每個(gè)時(shí)間序列的一維分布) 。由于 Encoder-Decoder Transformer 很好地封裝了幾個(gè)歸納偏差，所以它成為了我們預(yù)測(cè)的自然選擇。

傳統(tǒng) vanilla Transformer 論文鏈接:?https://arxiv.org/abs/1706.03762

首先，使用 Encoder-Decoder 架構(gòu)在推理時(shí)很有幫助。通常對(duì)于一些記錄的數(shù)據(jù)，我們希望提前預(yù)知未來(lái)的一些預(yù)測(cè)步驟?？梢哉J(rèn)為這個(gè)過(guò)程類似于文本生成任務(wù)，即給定上下文，采樣下一個(gè)詞元 (token) 并將其傳回解碼器 (也稱為“自回歸生成”) 。類似地，我們也可以在給定某種分布類型的情況下，從中抽樣以提供預(yù)測(cè)，直到我們期望的預(yù)測(cè)范圍。這被稱為貪婪采樣 (Greedy Sampling)/搜索，此處?有一篇關(guān)于 NLP 場(chǎng)景預(yù)測(cè)的精彩博文。?https://hf.co/blog/how-to-generate

其次，Transformer 幫助我們訓(xùn)練可能包含成千上萬(wàn)個(gè)時(shí)間點(diǎn)的時(shí)間序列數(shù)據(jù)。由于注意力機(jī)制的時(shí)間和內(nèi)存限制，一次性將?所有?時(shí)間序列的完整歷史輸入模型或許不太可行。因此，在為隨機(jī)梯度下降 (SGD) 構(gòu)建批次時(shí)，可以考慮適當(dāng)?shù)纳舷挛拇翱诖笮?，并從?xùn)練數(shù)據(jù)中對(duì)該窗口和后續(xù)預(yù)測(cè)長(zhǎng)度大小的窗口進(jìn)行采樣?？梢詫⒄{(diào)整過(guò)大小的上下文窗口傳遞給編碼器、預(yù)測(cè)窗口傳遞給?causal-masked?解碼器。這樣一來(lái)，解碼器在學(xué)習(xí)下一個(gè)值時(shí)只能查看之前的時(shí)間步。這相當(dāng)于人們訓(xùn)練用于機(jī)器翻譯的 vanilla Transformer 的過(guò)程，稱為“教師強(qiáng)制 (Teacher Forcing)”。

Transformers 相對(duì)于其他架構(gòu)的另一個(gè)好處是，我們可以將缺失值 (這在時(shí)間序列場(chǎng)景中很常見(jiàn)) 作為編碼器或解碼器的額外掩蔽值 (mask)，并且仍然可以在不訴諸于填充或插補(bǔ)的情況下進(jìn)行訓(xùn)練。這相當(dāng)于 Transformers 庫(kù)中 BERT 和 GPT-2 等模型的?attention_mask，在注意力矩陣 (attention matrix) 的計(jì)算中不包括填充詞元。

由于傳統(tǒng) vanilla Transformer 的平方運(yùn)算和內(nèi)存要求，Transformer 架構(gòu)的一個(gè)缺點(diǎn)是上下文和預(yù)測(cè)窗口的大小受到限制。關(guān)于這一點(diǎn)，可以參閱?Tay 等人于 2020 年發(fā)表的調(diào)研報(bào)告?。此外，由于 Transformer 是一種強(qiáng)大的架構(gòu)，與?其他方法?相比，它可能會(huì)過(guò)擬合或更容易學(xué)習(xí)虛假相關(guān)性。

Tay 等 2020 年發(fā)表的調(diào)研報(bào)告地址:?https://arxiv.org/abs/2009.06732
上述關(guān)于其他預(yù)測(cè)時(shí)間線方法的論文地址:?https://openreview.net/pdf?id=D7YBmfX_VQy

?? Transformers 庫(kù)帶有一個(gè)普通的概率時(shí)間序列 Transformer 模型，簡(jiǎn)稱為?Time Series Transformer。在這篇文章后面的內(nèi)容中，我們將展示如何在自定義數(shù)據(jù)集上訓(xùn)練此類模型。

Time Series Transformer 模型文檔:?https://hf.co/docs/transformers/model_doc/time_series_transformer

設(shè)置環(huán)境

首先，讓我們安裝必要的庫(kù): ?? Transformers、?? Datasets、?? Evaluate、?? Accelerate 和?GluonTS。

GluonTS 的 GitHub 倉(cāng)庫(kù):?https://github.com/awslabs/gluonts

正如我們將展示的那樣，GluonTS 將用于轉(zhuǎn)換數(shù)據(jù)以創(chuàng)建特征以及創(chuàng)建適當(dāng)?shù)挠?xùn)練、驗(yàn)證和測(cè)試批次。

加載數(shù)據(jù)集

在這篇博文中，我們將使用?Hugging Face Hub?上提供的“tourism_monthly”數(shù)據(jù)集。該數(shù)據(jù)集包含澳大利亞 366 個(gè)地區(qū)的每月旅游量。

“tourism_monthly” 數(shù)據(jù)集地址:?https://hf.co/datasets/monash_tsf

此數(shù)據(jù)集是?Monash Time Series Forecasting?存儲(chǔ)庫(kù)的一部分，該存儲(chǔ)庫(kù)是來(lái)自多個(gè)領(lǐng)域的時(shí)間序列數(shù)據(jù)集的集合。它可以看作是時(shí)間序列預(yù)測(cè)的 GLUE 基準(zhǔn)。

Monash Time Series Forecasting 存儲(chǔ)庫(kù)鏈接:?https://forecastingdata.org/

可以看出，數(shù)據(jù)集包含 3 個(gè)片段: 訓(xùn)練、驗(yàn)證和測(cè)試。

每個(gè)示例都包含一些鍵，其中“start”和“target”是最重要的鍵。讓我們看一下數(shù)據(jù)集中的第一個(gè)時(shí)間序列:

start?僅指示時(shí)間序列的開(kāi)始 (作為日期時(shí)間) ，而?target?包含時(shí)間序列的實(shí)際值。

start?將有助于將時(shí)間相關(guān)的特征添加到時(shí)間序列值中，作為模型的額外輸入 (例如“一年中的月份”) 。因?yàn)槲覀冎罃?shù)據(jù)的頻率是“每月”，所以知道例如第二個(gè)值的時(shí)間戳為“1979-02-01”，等等。

驗(yàn)證集包含與訓(xùn)練集相同的數(shù)據(jù)，只是“prediction_length”的時(shí)間更長(zhǎng)。這使我們能夠根據(jù)真實(shí)情況驗(yàn)證模型的預(yù)測(cè)。

與驗(yàn)證集相比，測(cè)試集還是一個(gè)“prediction_length”長(zhǎng)數(shù)據(jù) (或者與用于在多個(gè)滾動(dòng)窗口上進(jìn)行測(cè)試的訓(xùn)練集相比，“prediction_length”長(zhǎng)數(shù)據(jù)的若干倍) 。

初始值與相應(yīng)的訓(xùn)練示例完全相同:

但是，與訓(xùn)練示例相比，此示例具有“prediction_length=24”附加值。讓我們驗(yàn)證一下。

讓我們拆分?jǐn)?shù)據(jù):

將?start?更新為?pd.Period

我們要做的第一件事是使用數(shù)據(jù)的?freq?將每個(gè)時(shí)間序列的?start?特征轉(zhuǎn)換為 pandas?Period?索引:

我們現(xiàn)在使用?datasets?的?set_transform?功能來(lái)執(zhí)行此操作:

set_transform?文檔地址:?https://hf.co/docs/datasets/v2.7.0/en/package_reference/main_classes

定義模型

接下來(lái)，讓我們實(shí)例化一個(gè)模型。該模型將從頭開(kāi)始訓(xùn)練，因此我們不會(huì)在這里使用from_pretrained方法，而是從?config?中隨機(jī)初始化模型。

我們?yōu)槟Ｐ椭付藥讉€(gè)附加參數(shù):

prediction_length?(在我們的例子中，24?個(gè)月) : 這是 Transformer 的解碼器將學(xué)習(xí)預(yù)測(cè)的范圍；
context_length: 如果未指定?context_length，模型會(huì)將?context_length?(編碼器的輸入) 設(shè)置為等于?prediction_length；
給定頻率的“滯后”: 這些指定我們“回頭看”的程度，作為附加功能添加。例如對(duì)于“每日”頻率，我們可能會(huì)考慮回顧“[1, 2, 7, 30, ...]”，或者換句話說(shuō)，回顧 1, 2, ... 天，而對(duì)于“分鐘”數(shù)據(jù)，我們可能會(huì)考慮?[1, 30, 60, 60*24, ...]?等；
時(shí)間特征的數(shù)量: 在我們的例子中，這將是“2”，因?yàn)槲覀儗⑻砑印癕onthOfYear”和“Age”特征；
靜態(tài)分類特征的數(shù)量: 在我們的例子中，這將只是“1”，因?yàn)槲覀儗⑻砑右粋€(gè)“時(shí)間序列 ID”特征；
基數(shù): 每個(gè)靜態(tài)分類特征的值的數(shù)量，作為一個(gè)列表，對(duì)于我們的案例來(lái)說(shuō)將是“[366]”，因?yàn)槲覀冇?366 個(gè)不同的時(shí)間序列
嵌入維度: 每個(gè)靜態(tài)分類特征的嵌入維度，作為列表，例如“[3]”意味著模型將為每個(gè)“366”時(shí)間序列 (區(qū)域) 學(xué)習(xí)大小為“3”的嵌入向量.

讓我們使用 GluonTS 為給定頻率 (“每月”) 提供的默認(rèn)滯后:

這意味著我們將回顧每個(gè)時(shí)間步長(zhǎng)達(dá) 37 個(gè)月的時(shí)間，作為附加功能。

我們還檢查 GluonTS 為我們提供的默認(rèn)時(shí)間功能:

在這種情況下，只有一個(gè)特征，即“一年中的月份”。這意味著對(duì)于每個(gè)時(shí)間步長(zhǎng)，我們將添加月份作為標(biāo)量值 (例如，如果時(shí)間戳為“一月”，則為“1”；如果時(shí)間戳為“二月”，則為“2”，等等) 。

我們現(xiàn)在準(zhǔn)備好定義模型需要的所有內(nèi)容了:

請(qǐng)注意，與 ?? Transformers 庫(kù)中的其他模型類似，TimeSeriesTransformerModel?對(duì)應(yīng)于沒(méi)有任何頂部前置頭的編碼器-解碼器 Transformer，而?TimeSeriesTransformerForPrediction?對(duì)應(yīng)于頂部有一個(gè)前置頭 (distribution head) 的?TimeSeriesTransformerModel。默認(rèn)情況下，該模型使用 Student-t 分布 (但這是可配置的):

上述兩個(gè)模型的文檔鏈接:?https://hf.co/docs/transformers/model_doc/time_series_transformer

這是與用于 NLP 的 Transformers 的一個(gè)重要區(qū)別，其中頭部通常由一個(gè)固定的分類分布組成，實(shí)現(xiàn)為?nn.Linear?層。

定義轉(zhuǎn)換

接下來(lái)，我們定義數(shù)據(jù)的轉(zhuǎn)換，特別是時(shí)間特征的創(chuàng)建 (基于數(shù)據(jù)集或通用數(shù)據(jù)集) 。

同樣，我們將為此使用 GluonTS 庫(kù)。我們定義了一個(gè)“轉(zhuǎn)換鏈” (有點(diǎn)類似于圖像的“torchvision.transforms.Compose”) 。它允許我們將多個(gè)轉(zhuǎn)換組合到一個(gè)流水線中。

下面的轉(zhuǎn)換帶有注釋，以解釋它們的作用。在高層次上，我們將迭代數(shù)據(jù)集的各個(gè)時(shí)間序列并添加/刪除字段或特征:

定義?`InstanceSplitter`

對(duì)于訓(xùn)練、驗(yàn)證、測(cè)試步驟，接下來(lái)我們創(chuàng)建一個(gè)“InstanceSplitter”，用于從數(shù)據(jù)集中對(duì)窗口進(jìn)行采樣 (因?yàn)橛捎跁r(shí)間和內(nèi)存限制，我們無(wú)法將整個(gè)歷史值傳遞給 Transformer)。

實(shí)例拆分器從數(shù)據(jù)中隨機(jī)采樣大小為“context_length”和后續(xù)大小為“prediction_length”的窗口，并將“past_”或“future_”鍵附加到各個(gè)窗口的任何時(shí)間鍵。這確保了?values?將被拆分為?past_values?和后續(xù)的?future_values?鍵，它們將分別用作編碼器和解碼器的輸入。time_series_fields?參數(shù)中的任何鍵都會(huì)發(fā)生同樣的情況:

創(chuàng)建 PyTorch 數(shù)據(jù)加載器

接下來(lái)，需要?jiǎng)?chuàng)建 PyTorch DataLoaders。它允許我們批量處理成對(duì)的 (輸入, 輸出)，即 (past_values?,?future_values)。

可以看出，我們沒(méi)有將?input_ids?和?attention_mask?提供給編碼器 (NLP 模型就是這種情況) ，而是提供?past_values，以及?past_observed_mask、past_time_features、static_categorical_features?和static_real_features。

解碼器輸入包括“future_values”、“future_observed_mask”和“future_time_features”。?future_values?可以看作是 NLP 中的?decoder_input_ids?的等價(jià)物。我們可以參考?Time Series Transformer 文檔?以獲得對(duì)它們中每一個(gè)的詳細(xì)解釋。

前傳

讓我們對(duì)剛剛創(chuàng)建的批次執(zhí)行一次前向傳遞:?

目前，該模型返回了損失值。這是由于解碼器會(huì)自動(dòng)將“future_values”向右移動(dòng)一個(gè)位置以獲得標(biāo)簽。這允許計(jì)算預(yù)測(cè)值和標(biāo)簽之間的損失。

另請(qǐng)注意，解碼器使用 Causal Mask 來(lái)避免預(yù)測(cè)未來(lái)，因?yàn)樗枰A(yù)測(cè)的值在“future_values”張量中。

訓(xùn)練模型

是時(shí)候訓(xùn)練模型了！我們將使用標(biāo)準(zhǔn)的 PyTorch 訓(xùn)練循環(huán)。

我們將在這里使用 ???Accelerate?庫(kù)，它會(huì)自動(dòng)將模型、優(yōu)化器和數(shù)據(jù)加載器放置在適當(dāng)?shù)摹霸O(shè)備”上。

?? Accelerate 文檔地址:?https://hf.co/docs/accelerate/index

推理

在推理時(shí)，建議使用?generate()?方法進(jìn)行自回歸生成，類似于 NLP 模型。

預(yù)測(cè)涉及從測(cè)試實(shí)例采樣器獲取數(shù)據(jù)，該采樣器將從數(shù)據(jù)集中每個(gè)時(shí)間序列的最后一個(gè)“context_length”大小的值窗口中采樣，并將其傳遞給模型。請(qǐng)注意，我們把提前已知的“future_time_features”傳遞給解碼器。

該模型將從預(yù)測(cè)分布中自回歸采樣一定數(shù)量的值，并將它們傳回解碼器以返回預(yù)測(cè)輸出:?

該模型輸出一個(gè)結(jié)構(gòu)的張量 (batch_size,?number of samples,?prediction length)。

在這種情況下，我們將在接下來(lái)的 24 個(gè)月內(nèi)獲得 100 個(gè)可能的值 (對(duì)于大小為 64 的批次中的每個(gè)示例):?

我們將垂直堆疊它們，以獲得測(cè)試數(shù)據(jù)集中所有時(shí)間序列的預(yù)測(cè):?

我們可以根據(jù)測(cè)試集中存在的樣本值，根據(jù)真實(shí)情況評(píng)估生成的預(yù)測(cè)。這里我們使用數(shù)據(jù)集中的每個(gè)時(shí)間序列的?MASE?和 sMAPE 指標(biāo)來(lái)評(píng)估:

MASE 文檔地址:?https://hf.co/spaces/evaluate-metric/mase
sMAPE 文檔地址:?https://hf.co/spaces/evaluate-metric/smape

我們還可以繪制數(shù)據(jù)集中每個(gè)時(shí)間序列的單獨(dú)指標(biāo)，并觀察到少數(shù)時(shí)間序列對(duì)最終測(cè)試指標(biāo)的影響很大:

為了根據(jù)基本事實(shí)測(cè)試數(shù)據(jù)繪制任何時(shí)間序列的預(yù)測(cè)，我們定義了以下輔助繪圖函數(shù):?

例如:

plot(334)

我們?nèi)绾闻c其他模型進(jìn)行比較？?Monash Time Series Repository?有一個(gè)測(cè)試集 MASE 指標(biāo)的比較表，我們可以將其添加到:?

請(qǐng)注意，使用我們的模型，我們擊敗了所有已知的其他模型 (另請(qǐng)參見(jiàn)相應(yīng)?論文?中的表 2) ，并且我們沒(méi)有做任何超參數(shù)優(yōu)化。我們僅僅花了 40 個(gè)完整訓(xùn)練調(diào)參周期來(lái)訓(xùn)練 Transformer。

上文對(duì)于此數(shù)據(jù)集的預(yù)測(cè)方法論文:?https://openreview.net/pdf?id=wEc1mgAjU-

當(dāng)然，我們需要小心，因?yàn)樗坪?“你需要的就是 XGBoost”?。我們只是很好奇，想看看神經(jīng)網(wǎng)絡(luò)能帶我們走多遠(yuǎn)，以及 Transformer 是否會(huì)在這個(gè)領(lǐng)域發(fā)揮作用。這個(gè)特定的數(shù)據(jù)集似乎表明它絕對(duì)值得探索。

得出“你需要的就是 XGBoost”結(jié)論的論文地址:?https://www.sciencedirect.com/science/article/pii/S0169207021001679

下一步

我們鼓勵(lì)讀者嘗試我們的?Jupyter Notebook?和來(lái)自?Hugging Face Hub?的其他時(shí)間序列數(shù)據(jù)集，并替換適當(dāng)?shù)念l率和預(yù)測(cè)長(zhǎng)度參數(shù)。對(duì)于您的數(shù)據(jù)集，需要將它們轉(zhuǎn)換為 GluonTS 的慣用格式，在他們的?文檔?里有非常清晰的說(shuō)明。我們還準(zhǔn)備了一個(gè)示例?Notebook，向您展示如何將數(shù)據(jù)集轉(zhuǎn)換為 ?? 數(shù)據(jù)集格式。

Time Series Transformers Notebook:?https://colab.research.google.com/github/huggingface/notebooks/blob/main/examples/time-series-transformers.ipynb
Hub 中的 Monash Time Series 數(shù)據(jù)集:?https://hf.co/datasets/monash_tsf
GluonTS 闡述數(shù)據(jù)集格式的文檔:?https://ts.gluon.ai/stable/tutorials/forecasting/extended_tutorial.html
演示數(shù)據(jù)集格式轉(zhuǎn)換的 Notebook:?https://github.com/huggingface/notebooks/blob/main/examples/time_series_datasets.ipynb

正如時(shí)間序列研究人員所知，人們對(duì)“將基于 Transformer 的模型應(yīng)用于時(shí)間序列”問(wèn)題很感興趣。傳統(tǒng) vanilla Transformer 只是眾多基于注意力 (Attention) 的模型之一，因此需要向庫(kù)中添加更多模型。

目前沒(méi)有什么能妨礙我們繼續(xù)探索對(duì)多變量時(shí)間序列 (multivariate time series) 進(jìn)行建模，但是為此需要使用多變量分布頭 (multivariate distribution head) 來(lái)實(shí)例化模型。目前已經(jīng)支持了對(duì)角獨(dú)立分布 (diagonal independent distributions)，后續(xù)會(huì)增加其他多元分布支持。請(qǐng)繼續(xù)關(guān)注未來(lái)的博客文章以及其中的教程。

路線圖上的另一件事是時(shí)間序列分類。這需要將帶有分類頭的時(shí)間序列模型添加到庫(kù)中，例如用于異常檢測(cè)這類任務(wù)。

當(dāng)前的模型會(huì)假設(shè)日期時(shí)間和時(shí)間序列值都存在，但在現(xiàn)實(shí)中這可能不能完全滿足。例如?WOODS?給出的神經(jīng)科學(xué)數(shù)據(jù)集。因此，需要對(duì)當(dāng)前模型進(jìn)行泛化，使某些輸入在整個(gè)流水線中可選。

WOODS 主頁(yè):?https://woods-benchmarks.github.io/

最后，NLP/CV 領(lǐng)域從大型預(yù)訓(xùn)練模型?中獲益匪淺，但據(jù)我們所知，時(shí)間序列領(lǐng)域并非如此?；?Transformer 的模型似乎是這一研究方向的必然之選，我們迫不及待地想看看研究人員和從業(yè)者會(huì)發(fā)現(xiàn)哪些突破！

大型預(yù)訓(xùn)練模型論文地址:?https://arxiv.org/abs/1810.04805

英文地址：https://huggingface.co/blog/time-series-transformers

英文原文:?Probabilistic Time Series Forecasting with ?? Transformers

譯者、排版: zhongdongy (阿東)

標(biāo)簽：HuggingFace 人工智能