大數(shù)據(jù)畢業(yè)設(shè)計PyFlink+Hadoop+Hive民宿數(shù)據(jù)分析可視化大屏 民宿推薦系統(tǒng) 計算機畢設(shè)
流程
1.selenium自動化爬蟲框架采集民宿數(shù)據(jù)約10萬條存入.csv文件作為數(shù)據(jù)集;
2.使用pandas+numpy或MapReduce對數(shù)據(jù)進行數(shù)據(jù)清洗,生成最終的.csv文件并上傳到hdfs;
3.使用hive數(shù)倉技術(shù)建表建庫,導入.csv數(shù)據(jù)集;
4.離線分析采用hive_sql完成,實時分析利用Flink之Scala、FlinkSQL完成;
5.統(tǒng)計指標使用sqoop導入mysql數(shù)據(jù)庫;
6.使用flask+echarts進行可視化大屏幕炫酷展示;









創(chuàng)新點/特色:
0.全新PyFlink而不是Flink!吊打一切!全網(wǎng)都沒啥教程!屬于最新最屌最流行!
1.selenium爬蟲框架;
2.可視化炫酷大屏幕;
3.虛擬機顯擺敲命令碾壓答辯現(xiàn)場(市面上全是假算法假爬蟲假大數(shù)據(jù)都不帶用虛擬機的);
4.10萬海量數(shù)據(jù)集;
5.Flink實時計算+Hive、Hadoop離線計算雙實現(xiàn)有效避免導師噴你;
注意:如果還被噴項目工作量簡單或者課設(shè)級別等理由不讓你過,直接1秒內(nèi)無縫對接選裝推薦系統(tǒng)、后臺管理、前臺系統(tǒng)、預測算法、知識圖譜等
## 可選裝項目模塊如下:
1.推薦系統(tǒng)(4種深度學習推薦算法 協(xié)同過濾基于用戶 基于物品 SVD神經(jīng)網(wǎng)絡(luò) MLP)。附帶AI、支付、短信、lstm情感分析。
2.預測系統(tǒng)(KNN CNN RNN卷積神經(jīng)預測 K-means 線性回歸)。
3.知識圖譜neo4j可視化關(guān)系網(wǎng)絡(luò)圖。
4.后臺管理系統(tǒng)。



























