大數(shù)據(jù)獲客 如何精準(zhǔn)?

附上參考材料:https://weibo.com/yk99984滲透DPI,SDK,爬蟲 精準(zhǔn)數(shù)據(jù)我們談到大數(shù)據(jù)分析,首先需要確定數(shù)據(jù)分析的方向和擬解決的問題,然后才能確定需要的數(shù)據(jù)和分析范圍。大數(shù)據(jù)驅(qū)動的分析主要的挑戰(zhàn)不是技術(shù)問題,而是方向和組織領(lǐng)導(dǎo)的問題,要確定方向,提出問題,需要對行業(yè)做深入的了解。
收集數(shù)據(jù)是數(shù)據(jù)分析師開始工作的第一步,如果是內(nèi)部的數(shù)據(jù),可以通過SQL對其進(jìn)行提取,外部數(shù)據(jù)的獲取,使數(shù)據(jù)的真實性以及全面性很難得到保證,因此外部數(shù)據(jù)的獲取比較受關(guān)注,常用的獲取方法就是借助爬蟲,相比較而言,爬蟲程序得到的數(shù)據(jù)會更真實、全面,在信息繁多的互聯(lián)網(wǎng)時代更行之有效
因此,關(guān)于數(shù)據(jù)的來源更是至關(guān)重要的。在數(shù)據(jù)量非常大的今天,如何以更高的效率獲取到分析所需要的數(shù)據(jù),如何利用這些數(shù)據(jù)反應(yīng)最真實的情況,是業(yè)內(nèi)不斷探討的議題。接下來,小編就帶大家來了解下大數(shù)據(jù)分析及其數(shù)據(jù)來源。按加工形式:可以分為一手?jǐn)?shù)據(jù)和二手?jǐn)?shù)據(jù)(1)一手?jǐn)?shù)據(jù)一手?jǐn)?shù)據(jù),指的是可以直接獲取的數(shù)據(jù)。嚴(yán)格來說,這種數(shù)據(jù)一般是指埋點后系統(tǒng)直接采集的數(shù)據(jù),沒有做任何加工處理。這樣的數(shù)據(jù),一般放在數(shù)據(jù)倉庫的ods層。(2)二手?jǐn)?shù)據(jù)二手?jǐn)?shù)據(jù),指的是經(jīng)過加工處理的數(shù)據(jù)。實際工作中,我們接觸的絕大部分?jǐn)?shù)據(jù)都屬于二手?jǐn)?shù)據(jù),都是技術(shù)人員已經(jīng)清洗整理過的數(shù)據(jù),而給業(yè)務(wù)人員的數(shù)據(jù),又是一層層加工的數(shù)據(jù),可能已經(jīng)是三手、四手?jǐn)?shù)據(jù)了。所以,面對二手?jǐn)?shù)據(jù),數(shù)據(jù)準(zhǔn)確性成了最大的問題。要么我們相信技術(shù)人員的加工清洗邏輯,要么我們自己直接上手驗數(shù)。通常,我建議并希望大家在使用數(shù)據(jù)前,一定要對數(shù)據(jù)進(jìn)行了解,同時也要對數(shù)據(jù)準(zhǔn)確性進(jìn)行驗證。大數(shù)據(jù)分析的數(shù)據(jù)來源有很多種,包括公司或者機(jī)構(gòu)的內(nèi)部來源和外部來源。分為以下幾類:1)交易數(shù)據(jù)。包括POS機(jī)數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、電子商務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)點擊數(shù)據(jù)、“企業(yè)資源規(guī)劃”(ERP)系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、客戶關(guān)系管理(CRM)系統(tǒng)數(shù)據(jù)、公司的生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、訂單數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)等。2)移動通信數(shù)據(jù)。能夠上網(wǎng)的智能手機(jī)等移動設(shè)備越來越普遍。移動通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度,常常優(yōu)于各家互聯(lián)網(wǎng)公司掌握的數(shù)據(jù)。移動設(shè)備上的軟件能夠追蹤和溝通無數(shù)事件,從運用軟件儲存的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個人信息資料或狀態(tài)報告事件(如地點變更即報告一個新的地理編碼)等。3)人為數(shù)據(jù)。人為數(shù)據(jù)包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、微博、推特、百科、臉書、Linkedin等社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)性數(shù)據(jù),需要用文本分析功能進(jìn)行分析。4)企業(yè)數(shù)據(jù)?;ヂ?lián)網(wǎng)時代的社會經(jīng)濟(jì)活動創(chuàng)造了海量的數(shù)據(jù),這些數(shù)據(jù)掌握在各大企業(yè)手中?;ヂ?lián)網(wǎng)企業(yè)都在嘗試以更加開放的形式共享數(shù)據(jù)信息,例如百度、高德、騰訊、移動、新浪等已建立開放數(shù)據(jù)平臺。5)互聯(lián)網(wǎng)上的“開放數(shù)據(jù)”來源。一種是主動公開的數(shù)據(jù),通常是官方網(wǎng)站(比如國家統(tǒng)計局官網(wǎng))、公開資料(公開的資訊、分析報告等);另一種是半公開,主要是通過網(wǎng)絡(luò)爬蟲(這類數(shù)據(jù)大部分也算是公開,只不過公開的形式不一樣管上面列出了大量的數(shù)據(jù)源,但要滿足具體企業(yè)或機(jī)構(gòu)的具體需要,也常常有困難。這種情況在我國更加突出。因為我國政府公開的數(shù)據(jù)非常有限,很難被視為大數(shù)據(jù)。單是獲得數(shù)據(jù)還不夠,還需要獲得有關(guān)資料的很多細(xì)節(jié)。如對資料的說明,資料的背景以及其他能幫助分析員理解的數(shù)據(jù)信息。如果沒有這些細(xì)節(jié),對數(shù)據(jù)的正確解讀可能就會有困難。因此,大數(shù)據(jù)分析的數(shù)據(jù)來源需要數(shù)據(jù)分析員的創(chuàng)新與發(fā)現(xiàn)。
文章出處:https://weibo.com/yk99984