7個常用的時間序列數(shù)據(jù)集
在講之前學姐有必要再讓大家了解下機器學習的基本概念:
眾所周知,當今機器學習的研究現(xiàn)狀氛圍傳統(tǒng)機器學習和大數(shù)據(jù)環(huán)境下的機器學習。傳統(tǒng)機器學習的研究方向主要包括決策樹、隨機森林、人工神經(jīng)網(wǎng)絡、貝葉斯學習等方面的研究。大數(shù)據(jù)的價值體現(xiàn)主要集中在數(shù)據(jù)的轉(zhuǎn)向以及數(shù)據(jù)的信息處理能力等等。
(資料源自百度百科)

看到這里你不會再覺得時間序列怎么會和機器學習牽扯到一起了,因為一切源自機器學習。
開始使用機器學習進行時間序列預測時的一個問題是找到用于練習的高質(zhì)量標準數(shù)據(jù)集。本文介紹常用的7個時間序列數(shù)據(jù)集,你可以使用這些數(shù)據(jù)集開始和練習使用機器學習進行時間序列預測。
本文內(nèi)容主要包括:
4 個單變量時間序列數(shù)據(jù)集。
3 個多元時間序列數(shù)據(jù)集。
可用于搜索和下載更多數(shù)據(jù)集的網(wǎng)站。
單變量時間序列數(shù)據(jù)集
只有一個變量的時間序列數(shù)據(jù)集稱為單變量數(shù)據(jù)集。
特點:
簡單易懂。
可以在excel或繪圖工具中輕松繪制。
可以輕松地繪制與預期結(jié)果相比的預測。
可以快速嘗試和評估一套傳統(tǒng)和較新的方法。
以下是4個單變量時間序列數(shù)據(jù)集,包含銷售、氣象學、物理學和人口學等一系列領(lǐng)域的這些數(shù)據(jù)集。
洗發(fā)水銷售數(shù)據(jù)集
該數(shù)據(jù)集描述了3年期間每月洗發(fā)水的銷售量。
單位是銷售計數(shù),有36個觀察值。原始數(shù)據(jù)集歸功于Makridakis、Wheelwright和Hyndman (1998)。
下面是包括標題行在內(nèi)的前5行數(shù)據(jù)的示例。

數(shù)據(jù)集顯示出增加的趨勢,可能還有一些季節(jié)性成分。
數(shù)據(jù)集傳送門:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/shampoo.csv
每日最低溫度數(shù)據(jù)集
該數(shù)據(jù)集描述了澳大利亞墨爾本市 10 年(1981-1990 年)的最低日溫度。
單位為攝氏度,有 3650 個觀測值。數(shù)據(jù)來源被認為是澳大利亞氣象局。
下面是包括標題行在內(nèi)的前 5 行數(shù)據(jù)的示例。

該數(shù)據(jù)集顯示出很強的季節(jié)性成分,并有一個很好的細粒度細節(jié)可供使用。
數(shù)據(jù)集傳送門:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv
每月太陽黑子數(shù)據(jù)集
該數(shù)據(jù)集描述了230多年(1749-1983 年)觀測到的太陽黑子數(shù)量的月度計數(shù)。
單位是計數(shù),有2,820個觀測值,數(shù)據(jù)集的來源歸功于Andrews & Herzberg (1985)。
下面是包括標題行在內(nèi)的前5行數(shù)據(jù)的示例。

每月太陽黑子數(shù)據(jù)集圖
數(shù)據(jù)集顯示季節(jié)性,季節(jié)之間存在很大差異。
數(shù)據(jù)集傳送門:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/monthly-sunspots.csv
每日女性出生數(shù)據(jù)集
該數(shù)據(jù)集描述了1959年加利福尼亞州每天的女性出生人數(shù)。
單位是計數(shù),有365個觀測值。數(shù)據(jù)集的來源歸功于Newton (1988)。
下面是包括標題行在內(nèi)的前5行數(shù)據(jù)的示例。

每日女性出生數(shù)據(jù)集圖
數(shù)據(jù)集傳送門:
https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv
多元時間序列數(shù)據(jù)集
多元數(shù)據(jù)集通常更具挑戰(zhàn)性,是機器學習方法的最佳選擇。
多元時間序列數(shù)據(jù)的一個重要來源是UCI 機器學習存儲庫:
https://archive.ics.uci.edu/ml/
以下是來自氣象學、醫(yī)學和監(jiān)測領(lǐng)域的3個推薦的多元時間序列數(shù)據(jù)集的選擇。
腦電眼狀態(tài)數(shù)據(jù)集
該數(shù)據(jù)集描述了個人的EEG數(shù)據(jù)以及他們的眼睛是睜著還是閉著。該問題的目標是僅根據(jù) EEG 數(shù)據(jù)預測眼睛是睜開還是閉上。
該問題的目標是僅根據(jù)EEG數(shù)據(jù)預測眼睛是睜開還是閉上。
這是一個分類預測建模問題,共有14,980個觀察值和15個輸入變量?!?”的類值表示閉眼狀態(tài),“0”表示睜眼狀態(tài)。數(shù)據(jù)按時間排序,并在117秒內(nèi)記錄觀察結(jié)果。
數(shù)據(jù)按時間排序,并在117秒內(nèi)記錄觀察結(jié)果。
下面是沒有標題行的前5行的示例。
數(shù)據(jù)集傳送門:
https://archive.ics.uci.edu/ml/datasets/EEG+Eye+State
占用檢測數(shù)據(jù)集
該數(shù)據(jù)集描述了房間的測量值,目的是預測房間是否有人住。
在幾周的時間內(nèi)進行了20,560次一分鐘的觀察。這是一個分類預測問題。有7個屬性,包括房間的各種光線和氣候?qū)傩浴?/p>
數(shù)據(jù)來源歸功于UMONS的Luis Candanedo。
下面是包括標題行在內(nèi)的前5行數(shù)據(jù)的示例。
數(shù)據(jù)以3個文件的形式提供,這些文件建議可以用于訓練和測試模型的分割。
數(shù)據(jù)集傳送門:
https://archive.ics.uci.edu/ml/datasets/Occupancy+Detection+
臭氧水平檢測數(shù)據(jù)集
該數(shù)據(jù)集描述了6年的地面臭氧濃度觀測,目的是預測它是否是“臭氧日”。
該數(shù)據(jù)集包含2,536個觀測值和73個屬性。這是一個分類預測問題,最終屬性表示臭氧日的分類值為“1”,正常日為“0”。
提供了兩個版本的數(shù)據(jù),八小時峰值集和一小時峰值集。我建議現(xiàn)在使用一小時峰值設置。
下面是沒有標題行的前5行的示例。
數(shù)據(jù)集傳送門:
https://archive.ics.uci.edu/ml/datasets/Ozone+Level+Detection
大家今后可以使用這些數(shù)據(jù)集開始使用機器學習方法進行時間序列預測。學姐的機器學習系列教程還在持續(xù)更新中,關(guān)注學姐公眾號,有問題可以馬上來討論。
文章來源:
https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
免責聲明:所載內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機構(gòu)所有,如有侵權(quán),請聯(lián)系我們刪除。如有翻譯錯誤請評論區(qū)指出。
