大數(shù)據(jù)畢業(yè)設(shè)計(jì)hadoop+spark+hive小說(shuō)數(shù)據(jù)分析可視化大屏 小說(shuō)推薦系統(tǒng) 計(jì)算機(jī)畢設(shè)
2023-08-29 14:46 作者:計(jì)算機(jī)畢業(yè)設(shè)計(jì)之家 | 我要投稿












流程:
1.爬取17k.com的小說(shuō)數(shù)據(jù)約5-10萬(wàn),存入mysql數(shù)據(jù)庫(kù);
2.使用mapreduce對(duì)mysql中的小說(shuō)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,轉(zhuǎn)為.csv文件上傳至hdfs文件系統(tǒng);
3.根據(jù).csv文件結(jié)構(gòu),使用hive建庫(kù)建表;
4.一半分析指標(biāo)使用hive_sql完成,一半分析指標(biāo)使用Spark-Scala完成;
5.將分析結(jié)果使用sqoop導(dǎo)入mysql數(shù)據(jù)庫(kù);
6.使用Flask+echarts構(gòu)建可視化大屏;
創(chuàng)新點(diǎn):Python爬蟲、海量數(shù)據(jù)、可視化、實(shí)時(shí)計(jì)算spark+離線計(jì)算hive雙實(shí)現(xiàn)
可選裝知識(shí)圖譜、推薦系統(tǒng)、后臺(tái)管理、預(yù)測(cè)系統(tǒng)等,實(shí)現(xiàn)界面如下(可0秒無(wú)縫銜接選裝上):
https://www.bilibili.com/video/BV1aj411K7wp/?spm_id_from=333.999.0.0
https://www.bilibili.com/video/BV1MR4y1b7kZ/?spm_id_from=333.999.0.0