馬哥Python數(shù)據(jù)分析3期
數(shù)據(jù)分析簡介
一、數(shù)據(jù)獲取
1.數(shù)據(jù)獲取手段
數(shù)據(jù)獲取的手段主要有四種:數(shù)據(jù)倉庫,監(jiān)測與抓取,填寫、埋點(diǎn)、日志,計(jì)算
1) 數(shù)據(jù)倉庫
(1) 將所有業(yè)務(wù)的數(shù)據(jù)經(jīng)匯總處理,構(gòu)成數(shù)據(jù)倉庫(DW)
全部事實(shí)的記錄
部分維度與數(shù)據(jù)的整理(數(shù)據(jù)集市-DM)
(2)數(shù)據(jù)庫VS倉庫
數(shù)據(jù)庫面向業(yè)務(wù)存儲,倉庫面向主題存儲(主題:較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述)
數(shù)據(jù)庫針對應(yīng)用(OLTP:On-Line Transaction Processing),數(shù)據(jù)倉庫正對分析(OLAP:Online analytical processing)
數(shù)據(jù)庫組織規(guī)范,倉庫可能冗余,相對變化大,數(shù)據(jù)量大
2) 監(jiān)測與抓取
(1) 監(jiān)測
使用監(jiān)測設(shè)備或或算法直接獲取數(shù)據(jù),如傳感器網(wǎng)絡(luò)等
(2) 抓取
直接解析網(wǎng)頁、接口、文件的信息
Python常用工具
抓取數(shù)據(jù): urllib、urllib2、 requests、scrapy
解析路徑:PhantomJS(運(yùn)行JS代碼后才能解析)、BeautigulSoup、Xpath(lxml)
標(biāo)簽: