計(jì)算機(jī)畢業(yè)設(shè)計(jì)hadoop+spark+hive+nlp知識(shí)圖譜新聞推薦系統(tǒng) 新聞數(shù)據(jù)分析可視化大屏
2023-08-23 19:55 作者:計(jì)算機(jī)畢業(yè)設(shè)計(jì)之家 | 我要投稿










流程
1.使用Python采集新聞數(shù)據(jù)約10萬條存入mysql數(shù)據(jù)庫;
2.使用pandas+numpy或者h(yuǎn)adoop+mapreduce進(jìn)行數(shù)據(jù)清洗,嘗試用深度學(xué)習(xí)的分析模型對(duì)新聞?wù)Z料、情感、數(shù)據(jù)標(biāo)注等進(jìn)行大模型分析,最終結(jié)果保存為.csv文件并上傳hdfs;
3.使用hive建庫建表,導(dǎo)入.csv文件作為數(shù)據(jù)集;
4.一半分析指標(biāo)使用hive_sql完成,一半分析指標(biāo)使用Spark之Scala完成;
5.對(duì)分析的結(jié)果使用sqoop導(dǎo)入mysql數(shù)據(jù)庫;
6.使用Flask+echarts構(gòu)建炫酷吊炸天大屏可視化界面;
創(chuàng)新點(diǎn)
1大屏 2Python爬蟲 3深度學(xué)習(xí)自然語言處理分析 4海量百萬數(shù)據(jù)隨時(shí)可爬 5實(shí)時(shí)計(jì)算+離線計(jì)算全部實(shí)現(xiàn)
注意點(diǎn)
如果你還覺得工作量不夠,可以選裝推薦系統(tǒng)(4種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)推薦算法)、預(yù)測(cè)系統(tǒng)、知識(shí)圖譜、后臺(tái)等,實(shí)現(xiàn)界面如下(我保證可以0秒內(nèi)無縫對(duì)接選裝安裝上)
https://www.bilibili.com/video/BV1WG411o7sZ/?spm_id_from=333.999.0.0