散文網(wǎng) » 科技 »學(xué)習(xí) » 計(jì)算機(jī)畢業(yè)設(shè)計(jì)hadoop+spark+hive豆瓣圖書數(shù)據(jù)分析可視化大屏豆瓣圖書爬蟲推薦系統(tǒng)

計(jì)算機(jī)畢業(yè)設(shè)計(jì)hadoop+spark+hive豆瓣圖書數(shù)據(jù)分析可視化大屏豆瓣圖書爬蟲推薦系統(tǒng)

流程

1.scrapy采集豆瓣圖書數(shù)據(jù)存入sqlite便攜式內(nèi)嵌數(shù)據(jù)庫,從sqlite導(dǎo)出csv文件，使用pandas+numpy/MapReduce數(shù)據(jù)清洗再次生成清潔的.csv文件；

2.使用hive數(shù)倉工具進(jìn)行建庫建表操作并導(dǎo)入.csv文件數(shù)據(jù)；

3.離線分析采用hive_sql完成，實(shí)時(shí)計(jì)算采用Spark+Scala完成；

4.離線+實(shí)時(shí)計(jì)算的結(jié)果指標(biāo)使用sqoop導(dǎo)入mysql數(shù)據(jù)庫；

5.使用Flask+Echarts搭建可視化大屏展示；

創(chuàng)新點(diǎn)

scrapy分布式爬蟲、可視化大屏、離線+實(shí)時(shí)計(jì)算雙實(shí)現(xiàn)防止導(dǎo)師噴人！

如果你還覺得本系統(tǒng)太low了，可以選裝如下系統(tǒng)的后臺(tái)管理系統(tǒng)、推薦系統(tǒng)、預(yù)測系統(tǒng)、知識(shí)圖譜等。