計算機畢業(yè)設(shè)計hadoop+spark+hive旅游推薦系統(tǒng) 旅游分析可視化大屏 大數(shù)據(jù)畢業(yè)設(shè)計
流程
1.DrissionPage自動化爬蟲框架采集旅游數(shù)據(jù)約10萬條存入mysql數(shù)據(jù)庫、.csv文件作為數(shù)據(jù)集(旅游數(shù)據(jù)、用戶數(shù)據(jù)、評論數(shù)據(jù));
2.使用pandas+numpy或MapReduce對數(shù)據(jù)進行數(shù)據(jù)清洗,生成最終的.csv文件并上傳到hdfs(含nlp情感分析);
3.使用hive數(shù)倉技術(shù)建表建庫,導(dǎo)入.csv數(shù)據(jù)集;
4.離線分析采用hive_sql完成,實時分析利用Spark之Scala完成;
5.統(tǒng)計指標(biāo)使用sqoop導(dǎo)入mysql數(shù)據(jù)庫;
6.使用flask+echarts進行可視化大屏幕炫酷展示;









創(chuàng)新點/特色
1.全新DrissionPage爬蟲框架,性能強悍碾壓selenium/requests等常見傳統(tǒng)Python爬蟲技術(shù);
2.可視化炫酷大屏幕;
3.虛擬機顯擺敲命令碾壓答辯現(xiàn)場(市面上全是假算法假爬蟲假大數(shù)據(jù)都不帶用虛擬機的);
4.nlp深度學(xué)習(xí)文本分類情感分析;
5.Spark實時計算+Hive、Hadoop離線計算雙實現(xiàn)有效避免導(dǎo)師噴你;
注意
如果還被噴項目工作量簡單或者課設(shè)級別等理由不讓你過,直接1秒內(nèi)無縫對接選裝推薦系統(tǒng)、后臺管理、前臺系統(tǒng)、預(yù)測算法、知識圖譜等。效果如下:
https://www.bilibili.com/video/BV1pm4y1d7S5/?spm_id_from=333.999.0.0




















