計(jì)算機(jī)畢業(yè)設(shè)計(jì)hadoop+spark+hive豆瓣圖書數(shù)據(jù)分析可視化大屏 豆瓣圖書爬蟲 推薦系統(tǒng)
2023-08-16 22:23 作者:計(jì)算機(jī)畢業(yè)設(shè)計(jì)之家 | 我要投稿
流程
1.scrapy采集豆瓣圖書數(shù)據(jù)存入sqlite便攜式內(nèi)嵌數(shù)據(jù)庫,從sqlite導(dǎo)出csv文件,使用pandas+numpy/MapReduce數(shù)據(jù)清洗再次生成清潔的.csv文件;
2.使用hive數(shù)倉工具進(jìn)行建庫建表操作并導(dǎo)入.csv文件數(shù)據(jù);
3.離線分析采用hive_sql完成,實(shí)時(shí)計(jì)算采用Spark+Scala完成;
4.離線+實(shí)時(shí)計(jì)算的結(jié)果指標(biāo)使用sqoop導(dǎo)入mysql數(shù)據(jù)庫;
5.使用Flask+Echarts搭建可視化大屏展示;










創(chuàng)新點(diǎn)
scrapy分布式爬蟲、可視化大屏、離線+實(shí)時(shí)計(jì)算雙實(shí)現(xiàn)防止導(dǎo)師噴人!
注意
如果你還覺得本系統(tǒng)太low了,可以選裝如下系統(tǒng)的后臺(tái)管理系統(tǒng)、推薦系統(tǒng)、預(yù)測系統(tǒng)、知識(shí)圖譜等。
https://www.bilibili.com/video/BV19h4y1Q7EJ/?spm_id_from=333.999.0.0