一場(chǎng)激烈爭(zhēng)吵過(guò)后,女朋友終于知道“大數(shù)據(jù)”

最近女朋友經(jīng)常問(wèn)我一些奇怪的問(wèn)題。
比如:明明才刷了一小會(huì)某音,怎么一下午過(guò)去了?

在經(jīng)歷“招架不住”、“懵逼”、“吱吱嗚嗚”、“模棱兩可”等一系列心理斗爭(zhēng)之后,我還是“不負(fù)責(zé)任”地回復(fù):做事情投入的女孩最迷人。

不過(guò),我也總不能經(jīng)常以看似高情商實(shí)則沒(méi)有干貨的回答來(lái)搪塞我心愛(ài)之人。
于是,在惡補(bǔ)了某音的推薦規(guī)則之后,理直氣壯、胸有成竹地與女朋友展開(kāi)了辯論,盡管這場(chǎng)辯論以“男友沒(méi)有絲毫紳士風(fēng)度”的借口告終。
其實(shí),導(dǎo)致我女朋友產(chǎn)生近乎癡迷的上癮行為的始作俑者便是大數(shù)據(jù),抖音對(duì)海量的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、分析之后,再根據(jù)獨(dú)有的算法、規(guī)則,做出推薦。因此,任何人在刷某音的時(shí)候,會(huì)收到平臺(tái)持續(xù)的個(gè)性化推薦,進(jìn)而產(chǎn)生上癮行為。

在接收到“專(wu)業(yè)(liao)”的回答之后,女朋友用近乎“崇(bu)拜(xie)”的眼睛看著我:“就算你說(shuō)的都對(duì),那數(shù)據(jù)從何而來(lái)?!?/p>
她問(wèn)數(shù)據(jù)從何而來(lái)?
她竟然問(wèn)數(shù)據(jù)從何而來(lái)?!
這儼然大數(shù)據(jù)小白的問(wèn)題,讓我有了進(jìn)一步展示我學(xué)識(shí)淵博、高大偉岸的機(jī)會(huì),畢竟胡謅還是會(huì)的。

那就從頭開(kāi)始說(shuō)吧!
某音在推薦任務(wù)中,主要獲取兩個(gè)方面的數(shù)據(jù):視頻特征、用戶特征。其中,對(duì)于用戶來(lái)講,抖音會(huì)記錄用戶對(duì)某個(gè)視頻的點(diǎn)擊、播放、停留、關(guān)注、評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等行為,并根據(jù)這些特征進(jìn)行計(jì)算。
在這里,點(diǎn)擊、播放、停留、關(guān)注、評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等行為會(huì)形成數(shù)據(jù),以此測(cè)算用戶畫(huà)像,這就是數(shù)據(jù)的來(lái)源。

信息時(shí)代,任何一個(gè)被記錄的行為、話語(yǔ)、動(dòng)作都會(huì)形成數(shù)據(jù),比如身高、體重、年齡等規(guī)則數(shù)據(jù),又比如攝像頭記錄的車(chē)輛行駛數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過(guò)提取、存儲(chǔ)、分析之后,就會(huì)形成海量的數(shù)據(jù)。
按照Gartner的定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。因此,大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。
誠(chéng)然,大數(shù)據(jù)逐漸滲透進(jìn)零售、教育、金融等諸多行業(yè),誕生了數(shù)不勝數(shù)的經(jīng)典案例。至今,這些案例在幫助我們理解大數(shù)據(jù)概念,扮演者不可或缺的角色。以零售為代表的行業(yè),經(jīng)常會(huì)根據(jù)消費(fèi)者的購(gòu)物行為進(jìn)行分析,進(jìn)行促銷(xiāo)活動(dòng)的推薦。
大數(shù)據(jù)戰(zhàn)疫
2020年疫情期間,我國(guó)大數(shù)據(jù)企業(yè)相應(yīng)需求、發(fā)布產(chǎn)品,在疫情監(jiān)測(cè)分析、病毒溯源、防控救治、資源調(diào)配、復(fù)工復(fù)產(chǎn)等方面發(fā)揮了重要作用。以下將闡述兩個(gè)“大數(shù)據(jù)戰(zhàn)疫”案例,讓大家更好地理解大數(shù)據(jù)。
星環(huán)科技——疫情大數(shù)據(jù)服務(wù)平臺(tái)
面對(duì)疫情,星環(huán)科技憑借自身大數(shù)據(jù)技術(shù)以及AI能力,面向各級(jí)政府以及相關(guān)防疫部門(mén)研發(fā)出疫情大數(shù)據(jù)平臺(tái)。平臺(tái)擁有政府提供、合作單位自有、網(wǎng)絡(luò)爬取、購(gòu)買(mǎi)和用戶共享的多種數(shù)據(jù)渠道,同時(shí)基于數(shù)據(jù)治理體系,對(duì)平臺(tái)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理等標(biāo)準(zhǔn)化治理。平臺(tái)通過(guò)對(duì)高危人員歷時(shí)/實(shí)時(shí)軌跡分析,快速定位潛在感染人員,做到早發(fā)現(xiàn)、早隔離,防止疫情進(jìn)一步擴(kuò)散。
關(guān)鍵技術(shù):企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市、多租戶PaaS平臺(tái)、容器操作系統(tǒng)、高性能流處理引擎和分布式數(shù)據(jù)庫(kù)等技術(shù)。
主要產(chǎn)品:一站式大數(shù)據(jù)平臺(tái)、企業(yè)級(jí)數(shù)據(jù)云平臺(tái)、人工智能建模平臺(tái)。
京東物流——應(yīng)急物資供應(yīng)鏈大數(shù)據(jù)管理平臺(tái)
京東物流應(yīng)急物資大數(shù)據(jù)管理平臺(tái)面向政府、醫(yī)療機(jī)構(gòu)、應(yīng)急一線、醫(yī)療物資生產(chǎn)企業(yè)等用戶,利用數(shù)據(jù)采集、建立數(shù)據(jù)分析模型、多租戶隔離、數(shù)據(jù)安全等級(jí)確定、數(shù)據(jù)脫敏、數(shù)據(jù)訪問(wèn)審計(jì)等技術(shù),實(shí)現(xiàn)需求提報(bào)、籌措管理、供需對(duì)接、生產(chǎn)監(jiān)控、物流管理、挑撥分配等應(yīng)急物資的全流程可視化管理。
關(guān)鍵技術(shù):日志采集、實(shí)時(shí)采集、數(shù)據(jù)實(shí)時(shí)處理和離線處理、SQL語(yǔ)句查詢、Presto、Spark以及hbase+hive等
主要產(chǎn)品:物資供應(yīng)鏈管理平臺(tái)
關(guān)于“大數(shù)據(jù)”,確實(shí)是仁者見(jiàn)仁智者見(jiàn)智,理解方面更是千差萬(wàn)別。

不過(guò),在與女朋友的爭(zhēng)論中,還是依靠本人天生的“男友力”征服了她。
大數(shù)據(jù)就是大?
單純將大數(shù)據(jù)理解為海量數(shù)據(jù)或數(shù)據(jù)量大未免有失偏頗,數(shù)據(jù)量再大,不去合理利用,數(shù)據(jù)量再大也沒(méi)用。之前,做電商零售的朋友曾分享到,他們會(huì)提取客戶的相關(guān)畫(huà)像,經(jīng)過(guò)分析之后,判定哪些是精準(zhǔn)客戶,緊接著做一些精準(zhǔn)推送或促銷(xiāo)政策。這個(gè)案例雖然簡(jiǎn)單,但也是數(shù)據(jù)的應(yīng)用,換言之并不是數(shù)據(jù)越大越好,而精準(zhǔn)、有用的數(shù)據(jù)哪怕再少也有價(jià)值。
所有的數(shù)據(jù)都是有用的?
在海量數(shù)據(jù)的基礎(chǔ)上,我們需要對(duì)大數(shù)據(jù)進(jìn)行提取、存儲(chǔ)、分析,而這個(gè)過(guò)程刪減了大量沒(méi)有任何價(jià)值的數(shù)據(jù)。因此,并不是所有的數(shù)據(jù)都是有用的,需要我們對(duì)這些數(shù)據(jù)進(jìn)行一定的處理。

在了解大數(shù)據(jù)定義和相關(guān)誤區(qū)之后,我們?cè)賮?lái)看某音的大數(shù)據(jù)規(guī)則和工作流程。
1、實(shí)時(shí)數(shù)據(jù)采集:尤其是用戶的行為數(shù)據(jù),這些數(shù)據(jù)都是實(shí)時(shí)的產(chǎn)生
2、海量數(shù)據(jù)存儲(chǔ):分布式存儲(chǔ)(分布式文件系統(tǒng)),不能簡(jiǎn)單使用單機(jī)來(lái)存儲(chǔ),面對(duì)龐大的不間斷數(shù)據(jù),必須實(shí)現(xiàn)設(shè)計(jì)分布式存儲(chǔ)與文件系統(tǒng);
3、海量數(shù)據(jù)挖掘:能夠離線、實(shí)時(shí)對(duì)數(shù)據(jù)進(jìn)行計(jì)算,可使用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法完成;
4、數(shù)據(jù)可視化:前端渲染工具,實(shí)時(shí)動(dòng)態(tài)顯示數(shù)據(jù)的指標(biāo)等;
發(fā)展至今,數(shù)據(jù)孤島已經(jīng)成為桎梏大數(shù)據(jù)發(fā)展的關(guān)鍵因素,也就是各大平臺(tái)之間數(shù)據(jù)不流通,使系統(tǒng)推薦性能受到制約,用戶畫(huà)像構(gòu)建不完善,制約著大數(shù)據(jù)的精準(zhǔn)度。因此,我們需要想辦法解決數(shù)據(jù)孤島問(wèn)題,目前行之有效的方法是基于數(shù)據(jù)中臺(tái)和基于聯(lián)邦學(xué)習(xí)的框架體系。

數(shù)據(jù)中臺(tái):緩解數(shù)據(jù)孤島,將多個(gè)平臺(tái)的數(shù)據(jù)匯總在一起,并可實(shí)現(xiàn)數(shù)據(jù)復(fù)用與共享;但這通常需要多個(gè)公司之間滿足一定的協(xié)議。在數(shù)據(jù)中臺(tái)的基礎(chǔ)上,實(shí)現(xiàn)大數(shù)據(jù)挖掘和推薦,可以進(jìn)一步提高收益;
聯(lián)邦學(xué)習(xí):聯(lián)邦學(xué)習(xí)是近兩年比較火的概念,其主要解決的就是各大企業(yè)之間不愿意公開(kāi)數(shù)據(jù),而使得模型無(wú)法充分學(xué)習(xí)到用戶的行為特征的問(wèn)題。如果利用聯(lián)邦學(xué)習(xí),各個(gè)公司的數(shù)據(jù)無(wú)須匯總到一個(gè)中心結(jié)點(diǎn),而只需要一定的聯(lián)邦算法,讓模型分布式地進(jìn)行學(xué)習(xí),既可以充分利用各個(gè)平臺(tái)的數(shù)據(jù),又可以保證數(shù)據(jù)的隱私性和安全性。

當(dāng)我苦心孤詣、費(fèi)盡心血、披肝瀝膽地將一切陳述出來(lái)之后。
女朋友回復(fù):“哦”!
我......
是不是太直男了?!