大數(shù)據(jù)畢業(yè)設(shè)計(jì)hadoop+spark+hive動(dòng)漫數(shù)據(jù)分析可視化大屏 動(dòng)漫推薦系統(tǒng) 計(jì)算機(jī)畢設(shè)
2023-08-30 16:47 作者:計(jì)算機(jī)畢業(yè)設(shè)計(jì)之家 | 我要投稿













流程
1.DrissionPage采集知音漫客約2萬(wàn)條國(guó)產(chǎn)動(dòng)漫數(shù)據(jù)存入mysql數(shù)據(jù)庫(kù);
2.Mapreduce對(duì)采集的動(dòng)漫數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、拆分?jǐn)?shù)據(jù)項(xiàng)等,轉(zhuǎn)為.csv文件上傳hadoop的hdfs集群;
3.hive建庫(kù)建表導(dǎo)入.csv動(dòng)漫數(shù)據(jù);
4.一半指標(biāo)使用hive_sql分析得出,一半指標(biāo)使用Spark之Scala完成;
5.sqoop對(duì)分析結(jié)果導(dǎo)入mysql數(shù)據(jù)庫(kù);
6.Flask+echarts搭建可視化大屏;
創(chuàng)新點(diǎn)
Python全新DrissionPage爬蟲(chóng)使用
海量數(shù)據(jù)
爬蟲(chóng)
可視化大屏
離線hive+實(shí)時(shí)Spark雙實(shí)現(xiàn)
可選裝
推薦系統(tǒng)
預(yù)測(cè)系統(tǒng)
知識(shí)圖譜
后臺(tái)管理等