大數(shù)據(jù)畢業(yè)設(shè)計(jì)PyFlink+Hadoop+Hive機(jī)票推薦系統(tǒng) 機(jī)票數(shù)據(jù)分析可視化大屏 計(jì)算機(jī)畢設(shè)
1.DrissionPage自動(dòng)化Python爬蟲(chóng)工具采集飛豬網(wǎng)機(jī)票航班數(shù)據(jù)約1000萬(wàn)條存入.csv文件作為數(shù)據(jù)集;
2.使用pandas+numpy或MapReduce對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,生成最終的.csv文件并上傳到hdfs;
3.使用hive數(shù)倉(cāng)技術(shù)建表建庫(kù),導(dǎo)入.csv數(shù)據(jù)集;
4.離線分析采用hive_sql完成,實(shí)時(shí)分析利用Flink之Scala、FlinkSQL完成;
5.統(tǒng)計(jì)指標(biāo)使用sqoop導(dǎo)入mysql數(shù)據(jù)庫(kù);
6.使用flask+echarts進(jìn)行可視化大屏幕炫酷展示;
創(chuàng)新點(diǎn)/特色:
0.全新PyFlink而不是Flink!吊打一切!全網(wǎng)都沒(méi)啥教程!屬于最新最屌最流行!
1.DrissionPage自動(dòng)化Python爬蟲(chóng)工具,比傳統(tǒng)的selenium、requests強(qiáng)悍很多,7*24小時(shí)不間斷瘋狂爬取無(wú)壓力;
2.可視化炫酷大屏幕;
3.虛擬機(jī)顯擺敲命令碾壓答辯現(xiàn)場(chǎng)(市面上全是假算法假爬蟲(chóng)假大數(shù)據(jù)都不帶用虛擬機(jī)的);
4.1000萬(wàn)海量數(shù)據(jù)集;
5.Flink實(shí)時(shí)計(jì)算+Hive、Hadoop離線計(jì)算雙實(shí)現(xiàn)有效避免導(dǎo)師噴你;
注意:如果還被噴項(xiàng)目工作量簡(jiǎn)單或者課設(shè)級(jí)別等理由不讓你過(guò),直接1秒內(nèi)無(wú)縫對(duì)接選裝推薦系統(tǒng)、后臺(tái)管理、前臺(tái)系統(tǒng)、預(yù)測(cè)算法、知識(shí)圖譜等
## 可選裝項(xiàng)目模塊如下:
1.推薦系統(tǒng)(4種深度學(xué)習(xí)推薦算法 協(xié)同過(guò)濾基于用戶 基于物品 SVD神經(jīng)網(wǎng)絡(luò) MLP)。附帶AI、支付、短信、lstm情感分析。
2.預(yù)測(cè)系統(tǒng)(KNN CNN RNN卷積神經(jīng)預(yù)測(cè) K-means 線性回歸)。
3.知識(shí)圖譜neo4j可視化關(guān)系網(wǎng)絡(luò)圖。
4.后臺(tái)管理系統(tǒng)。









