【敢稱B站最好!】博導(dǎo)半天就教會(huì)了我【時(shí)間序列預(yù)測(cè)】!國內(nèi)頂尖學(xué)府北大強(qiáng)推的 L

課代表總結(jié)了時(shí)間序列預(yù)測(cè)??????
視頻內(nèi)容:
1??論文背景研究問題??
2??時(shí)間序列經(jīng)典算法??
3??算法的核心思想???
4??Transformer架構(gòu)的優(yōu)勢(shì)與問題??
5??要解決的三大問題??
6??如何定義每一個(gè)Q是不是偷懶的??
7??ProbAttention計(jì)算方法??
8??位置編碼信息???
視頻內(nèi)容:
1??論文背景研究問題??
1.短序列預(yù)測(cè)
2趨勢(shì)預(yù)測(cè)
3.精準(zhǔn)長序列預(yù)測(cè)

2??時(shí)間序列經(jīng)典算法??
Prophet:非常實(shí)用的工具包,適合預(yù)測(cè)趨勢(shì),但不算精準(zhǔn)
Arima:老牌算法了,短序列預(yù)測(cè)還算精準(zhǔn),但是趨勢(shì)預(yù)測(cè)不準(zhǔn)
但是一旦涉及到長序列,倆可能就都GG了
lnformer中將主要致力于長序列問題的解決

3??算法的核心思想???
是套transformer架構(gòu)
建立好長輸入(input)和長輸出(output)之間的關(guān)系

4??Transformer架構(gòu)的優(yōu)勢(shì)與問題??
1.萬能模型,直接套用,代碼實(shí)現(xiàn)簡單,現(xiàn)成例子一大片
2.并行的,比LSTM快,全局信息豐富,注意力機(jī)制效果好
3.長序列中attention需要每一個(gè)點(diǎn)跟其他點(diǎn)計(jì)算(如果序列太長,效率很低)
4.Decoder輸出挺墨跡的,要基于上一個(gè)預(yù)測(cè)結(jié)果來推斷當(dāng)前的預(yù)測(cè)結(jié)果

5??要解決的三大問題??
1.Attention要算的更快
2.Decoder要一次性輸出所有預(yù)測(cè)
3.堆疊encoder也得要更快
論文的三大核心模塊

6??如何定義每一個(gè)Q是不是偷懶的??
偷懶的Q感覺就像是均勻分布,沒啥特點(diǎn),全都有
Active的Q明顯在某些位置比較活躍,權(quán)重差異較大
對(duì)于每一個(gè)Q,計(jì)算其有均勻分布的差異,差異越大則表示其越活越

7??ProbAttention計(jì)算方法??
輸入序列長度為96,首先在K中進(jìn)行采樣)隨機(jī)選25個(gè)K
現(xiàn)在要選出來的是一些重要的Q,正常情況需每一個(gè)Q跟96個(gè)K計(jì)算
重要的Q不用非得計(jì)算那么多,跟部分K計(jì)算的結(jié)果也可以當(dāng)作其分布
例如源碼輸出結(jié)果:32,8,96,25表示8頭,96個(gè)Q分別跟25個(gè)K計(jì)算的內(nèi)積

8??位置編碼信息???
位置信息比較豐富這回
不僅有絕對(duì)位置編碼
還包括了跟時(shí)間相關(guān)的各種編碼
Encoder與Decoder都加入了
