Python畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告爬蟲(chóng)數(shù)據(jù)分析系統(tǒng)
一、項(xiàng)目介紹?

二、開(kāi)題報(bào)告
1?選題的依據(jù)及意義
隨著現(xiàn)代計(jì)算機(jī)科學(xué)的迅速發(fā)展,信息和通訊技術(shù)的應(yīng)用與推廣已經(jīng)滲透到社會(huì)經(jīng)濟(jì)生活的各個(gè)領(lǐng)域。作為一個(gè)典型的信息系統(tǒng),在國(guó)民經(jīng)濟(jì)中占有極其重要的地位。但由于其龐大復(fù)雜的結(jié)構(gòu)以及對(duì)數(shù)據(jù)要求的多樣性,使得傳統(tǒng)的數(shù)據(jù)分析方法已無(wú)法滿足人們?nèi)找嫣岣叩男枨?,尤其是?duì)于海量的空間數(shù)據(jù)來(lái)說(shuō)更是如此。數(shù)據(jù)挖掘技術(shù)作為一種新興的數(shù)據(jù)處理技術(shù),以它獨(dú)特的優(yōu)勢(shì)成為目前國(guó)內(nèi)外學(xué)者關(guān)注的熱點(diǎn)。然而,現(xiàn)有的數(shù)據(jù)挖掘算法大都基于統(tǒng)計(jì)理論基礎(chǔ)之上,不能直接用于實(shí)際問(wèn)題的處理;而且它們一般只適用于單一類型數(shù)據(jù)庫(kù)(如關(guān)系數(shù)據(jù)庫(kù)),而不適用于大型、異構(gòu)的分布式數(shù)據(jù)庫(kù)系統(tǒng)。針對(duì)這些不足,本文提出了一套新的面向云頂之弈數(shù)據(jù)分析系統(tǒng)的體系結(jié)構(gòu)模型,并以此為基礎(chǔ)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)云計(jì)算平臺(tái)下的空間數(shù)據(jù)倉(cāng)庫(kù)及決策支持系統(tǒng)原型系統(tǒng)——云頂之奕決策分析系統(tǒng)。
2?國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)
在云計(jì)算的浪潮下,如何利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)用戶需求和業(yè)務(wù)發(fā)展的分析,是擺在我們面前的重要課題。本文結(jié)合國(guó)家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目——基于海量氣象信息服務(wù)的智能決策支持系統(tǒng)研究,提出了一種基于python技術(shù)的云頂之奕數(shù)據(jù)分析系統(tǒng)的體系結(jié)構(gòu)及其關(guān)鍵技術(shù)與方法。該系統(tǒng)以B/S結(jié)構(gòu)為基礎(chǔ),使用python語(yǔ)言進(jìn)行編程,My SQL數(shù)據(jù)庫(kù)作為后臺(tái)管理平臺(tái),通過(guò)WEKA提供的API調(diào)用接口將所需的各類數(shù)據(jù)實(shí)時(shí)地發(fā)送到服務(wù)器上,然后再經(jīng)過(guò)服務(wù)器端的數(shù)據(jù)分析處理后得到各種決策方案。本系統(tǒng)具有良好的可擴(kuò)展性,可以根據(jù)不同的業(yè)務(wù)要求靈活配置其功能;采用分布式設(shè)計(jì)思想,可方便地?cái)U(kuò)展到更多類型的客戶端,使其能滿足不同用戶的需要。本文首先介紹了數(shù)據(jù)挖掘技術(shù),云計(jì)算技術(shù),并著重闡述了數(shù)據(jù)挖掘中常用的關(guān)聯(lián)規(guī)則挖掘算法以及聚類分析算法,最后詳細(xì)說(shuō)明了數(shù)據(jù)倉(cāng)庫(kù)理論及相關(guān)技術(shù)在云頂之棋數(shù)據(jù)挖掘過(guò)程中所起的作用。其次,針對(duì)云頂之奕大數(shù)據(jù)處理的特點(diǎn),本文提出了基于Hadoop的數(shù)據(jù)挖掘模型,并給出了相應(yīng)的數(shù)據(jù)結(jié)構(gòu)。隨后又從系統(tǒng)架構(gòu)角度出發(fā),對(duì)系統(tǒng)功能模塊進(jìn)行了劃分:主要包括數(shù)據(jù)預(yù)處理模塊,數(shù)據(jù)存儲(chǔ)模塊,數(shù)據(jù)挖掘模塊和數(shù)據(jù)管理模塊。
3 本課題研究?jī)?nèi)容
三、截圖

