最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

手把手教你搭建用戶畫(huà)像系統(tǒng)(入門(mén)篇上)

2023-08-07 17:04 作者:滌生大數(shù)據(jù)  | 我要投稿

隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,企業(yè)的關(guān)注點(diǎn)日益聚焦在如何利用大數(shù)據(jù)來(lái)為精細(xì)化運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷(xiāo)服務(wù),而要做精細(xì)化運(yùn)營(yíng),首先要建立本企業(yè)的用戶畫(huà)像。搭建一套用戶畫(huà)像方案整體來(lái)說(shuō)需要考慮8個(gè)模塊的建設(shè),如下圖:

下面簡(jiǎn)單介紹這八大模塊。

1.用戶畫(huà)像基礎(chǔ)

1.1 什么是用戶畫(huà)像

用戶畫(huà)像是指描述一個(gè)用戶或用戶群體的細(xì)節(jié)和特征的方法,通過(guò)收集用戶的社會(huì)屬性消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),進(jìn)而對(duì)用戶或者產(chǎn)品特征屬性進(jìn)行刻畫(huà),并對(duì)這些特征進(jìn)行分析、統(tǒng)計(jì),挖掘潛在價(jià)值信息,從而抽象出用戶的信息全貌。概括一句話:即用戶信息標(biāo)簽化。

1.2 用戶畫(huà)像數(shù)據(jù)架構(gòu)


1)數(shù)據(jù)底層整理

圖中最下方的虛線框中的內(nèi)容,是常見(jiàn)的數(shù)據(jù)倉(cāng)庫(kù)ETL加工流程,也就是將每日的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等經(jīng)過(guò)ETL處理,加工到數(shù)據(jù)倉(cāng)庫(kù)對(duì)應(yīng)的ODS層、DW層、DM層中。數(shù)據(jù)指標(biāo)的的梳理來(lái)源于各個(gè)系統(tǒng)日常積累的日志記錄系統(tǒng),通過(guò)大數(shù)據(jù)平臺(tái)接入數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)倉(cāng)底層主要依托hadoop、hdfs、hive。

2)用戶畫(huà)像建模

中間的虛線框即為用戶畫(huà)像建模的重要環(huán)節(jié),即對(duì)基于數(shù)據(jù)倉(cāng)庫(kù)ODS層、DW層、DM層中與用戶相關(guān)的數(shù)據(jù)的二次建模加工,而用戶畫(huà)像系統(tǒng)并不是產(chǎn)生數(shù)據(jù)的源頭,之后將二次加工后的用戶標(biāo)簽結(jié)果寫(xiě)入到Hive中。由于不同的數(shù)據(jù)庫(kù)有不同的應(yīng)用場(chǎng)景,后續(xù)需要進(jìn)一步將數(shù)據(jù)同步到MySQL、HBase、Elasticsearch等數(shù)據(jù)庫(kù)中。

3)面向應(yīng)用

用戶標(biāo)簽數(shù)據(jù)在Hive中加工完成之后,部分標(biāo)簽通同步到MySQL、ES數(shù)據(jù)庫(kù)中,提供用于BI報(bào)表展示的數(shù)據(jù)、多為透視分析的數(shù)據(jù)、圈人服務(wù)的數(shù)據(jù);另一部分標(biāo)簽同步到HBase數(shù)據(jù)庫(kù)中,用戶產(chǎn)品線上個(gè)性化推薦。

1.3 畫(huà)像開(kāi)發(fā)流程

1)需求分析

用戶畫(huà)像體系的建設(shè)不能憑空捏造,需要以經(jīng)濟(jì)建設(shè)為中心,根據(jù)實(shí)際的業(yè)務(wù)需求,考量畫(huà)像系統(tǒng)能為業(yè)務(wù)帶來(lái)的價(jià)值,所以我們第一步要做的是分析業(yè)務(wù)需求。

2)搭建標(biāo)簽體系

標(biāo)簽是某一種用戶特征的符號(hào)表示,標(biāo)簽解決的是描述(或命名)問(wèn)題,但在實(shí)際應(yīng)用中,還需要解決數(shù)據(jù)之間的關(guān)聯(lián),所以通常將標(biāo)簽作為一個(gè)體系來(lái)設(shè)計(jì),以解決數(shù)據(jù)之間的關(guān)聯(lián)問(wèn)題。所以說(shuō)我們?cè)诮o用戶打標(biāo)簽的同時(shí),需要有一個(gè)分類標(biāo)準(zhǔn),簡(jiǎn)單說(shuō),就是你把用戶分到多少個(gè)類別里面去,這些類是什么,彼此之間有什么關(guān)系,就構(gòu)成了標(biāo)簽體系。

3)建立用戶畫(huà)像和用戶畫(huà)像系統(tǒng)

在把用戶數(shù)據(jù)標(biāo)簽化之后,通過(guò)相應(yīng)的模型或工具,根據(jù)數(shù)據(jù)分析的結(jié)果,將用戶的特征、興趣和行為整合成用戶畫(huà)像的形式,可以是文字描述、標(biāo)簽或圖表等形式,以便后續(xù)使用和分析。為了提高體驗(yàn),我們更多的的時(shí)候是一個(gè)用畫(huà)像系統(tǒng)。

4)畫(huà)像應(yīng)用

應(yīng)用場(chǎng)景包含 3 類:精準(zhǔn)營(yíng)銷(xiāo)、用戶分析、個(gè)性化推薦。? ? ? ?? ?

2.標(biāo)簽指標(biāo)體系

構(gòu)成用戶的標(biāo)簽可以是多種多樣的,也應(yīng)該能夠滲透到豐富的業(yè)務(wù)場(chǎng)景中去,因而標(biāo)簽就需要兼顧廣泛性和精確性,這就引入了標(biāo)簽體系的概念。說(shuō)白了,所謂標(biāo)簽體系,標(biāo)簽體系就是分類。

2.1 按維度劃分體系

標(biāo)簽體系化化是建立用戶畫(huà)像的關(guān)鍵環(huán)節(jié),也是在標(biāo)簽開(kāi)發(fā)前要進(jìn)行的工作,具體來(lái)說(shuō)就是需要結(jié)合本公司的業(yè)務(wù)情況設(shè)定相關(guān)的指標(biāo)。從建立的標(biāo)簽維度來(lái)看,可以將其分為用戶屬性、用戶行為、用戶消費(fèi)、風(fēng)險(xiǎn)控制、社交屬性等五大常見(jiàn)類型。

2.2 統(tǒng)計(jì)方式分類

首先我們來(lái)了解一下按統(tǒng)計(jì)方法的不同劃分的分類,按統(tǒng)計(jì)方式分類的標(biāo)簽可分為統(tǒng)計(jì)類標(biāo)簽、規(guī)則類標(biāo)簽、挖掘類標(biāo)簽。

3.標(biāo)簽平臺(tái)管理

標(biāo)簽平臺(tái)是一個(gè)中間層的服務(wù),為前臺(tái)提供的是數(shù)據(jù)支持。另外一方面標(biāo)簽平臺(tái)的加工,依賴底層的基礎(chǔ)數(shù)據(jù)平臺(tái)的原始數(shù)據(jù)。

3.1 新建標(biāo)簽

標(biāo)簽管理平臺(tái)中,每個(gè)標(biāo)簽開(kāi)發(fā)時(shí),首先需要在管理平臺(tái)上注冊(cè),生成標(biāo)簽元數(shù)據(jù),然后我們?cè)诟鶕?jù)元數(shù)據(jù)信息在大數(shù)據(jù)平臺(tái)進(jìn)行邏輯加工。

3.2?標(biāo)簽視圖與查詢

標(biāo)簽視圖與查詢功能主要面向業(yè)務(wù)人員使用,標(biāo)簽視圖版塊中,層級(jí)化地展示了目前正在使用的全部用戶標(biāo)簽。方便應(yīng)用方點(diǎn)擊查看每個(gè)標(biāo)簽的詳細(xì)情況。

3.3?標(biāo)簽管理

標(biāo)簽管理,是用戶畫(huà)像是開(kāi)發(fā)的起點(diǎn),所有的用戶畫(huà)像都起始于對(duì)標(biāo)簽的定義和規(guī)則的指定。標(biāo)簽管理是基于標(biāo)簽整個(gè)生命周期進(jìn)行管理。標(biāo)簽的生命周期包括“標(biāo)簽創(chuàng)建、標(biāo)簽審核、標(biāo)簽上線、標(biāo)簽評(píng)估、標(biāo)簽變更、標(biāo)簽下線”六個(gè)部分。

4.標(biāo)簽數(shù)據(jù)開(kāi)發(fā)

4.1 標(biāo)簽開(kāi)發(fā)流程

標(biāo)簽的開(kāi)發(fā)在hive庫(kù)完成,因?yàn)闃?biāo)簽的模型體系是基于數(shù)據(jù)倉(cāng)庫(kù)而來(lái),所以大致流程也和數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)流程類似,具體工作流程如下:

4.2 標(biāo)簽表模型設(shè)計(jì)

表結(jié)構(gòu)設(shè)計(jì)也是畫(huà)像開(kāi)發(fā)過(guò)程中需要解決的一個(gè)重要問(wèn)題。表結(jié)構(gòu)設(shè)計(jì)的重點(diǎn)是要考慮存儲(chǔ)哪些信息、如何存儲(chǔ)(數(shù)據(jù)分區(qū))、如何應(yīng)用(如何抽取標(biāo)簽)這3個(gè)方面的問(wèn)題。不同業(yè)務(wù)背景有不同的設(shè)計(jì)方式。

1.橫表

以Hive為例,我們最常用的就是橫表,也就是一個(gè) key,跟上它的所有標(biāo)簽。橫表的問(wèn)題:

1)由于用戶的標(biāo)簽會(huì)非常多,而且隨著用戶畫(huà)像的深入,會(huì)有很多細(xì)分領(lǐng)域的標(biāo)簽,這就意味著標(biāo)簽的數(shù)量會(huì)隨時(shí)增加,而且可能會(huì)很頻繁。

2)不同的標(biāo)簽計(jì)算頻率不同,比如說(shuō)學(xué)歷一周計(jì)算一次都是可以接受的,但是APP登錄活躍情況卻可能需要每天都要計(jì)算。

3)計(jì)算完成時(shí)間不同,如果是以橫表的形式存儲(chǔ),那么最終需要把各個(gè)小表的計(jì)算結(jié)果合并,此時(shí)如果出現(xiàn)了一部分結(jié)果早上3點(diǎn)計(jì)算完成,一部分要早上10點(diǎn)才能計(jì)算完成,那么橫表最終的生成時(shí)間就要很晚。

4)大量空缺的標(biāo)簽會(huì)導(dǎo)致存儲(chǔ)稀疏,有一些標(biāo)簽會(huì)有很多的的缺失,這在標(biāo)簽用戶畫(huà)像中很常見(jiàn),主要是當(dāng)標(biāo)簽數(shù)據(jù)量開(kāi)始快速增加的時(shí)候會(huì)遇到的問(wèn)題。

2.豎表

豎表其實(shí)就是將標(biāo)簽都拆開(kāi),一個(gè)用戶有多少標(biāo)簽,那么在這里面就會(huì)有幾條數(shù)據(jù)。豎表能比較好地解決上面寬表的問(wèn)題。但是它也會(huì)帶來(lái)了新的問(wèn)題,比如說(shuō)多標(biāo)簽組合的查詢需求:“我們想看年齡在23-30之間,月薪在10-20k之間,喜歡聽(tīng)古典音樂(lè)的女性”,這種多標(biāo)簽查詢條件組合情況在豎表中就不太容易支持。

3.橫表+豎表

如前面所分析,豎表和橫表各有所長(zhǎng)和所短,那么能不能兩者結(jié)合呢?

這其實(shí)也要考慮橫表和豎表的特性,整體來(lái)講就是豎表對(duì)計(jì)算層支持的好,橫表對(duì)查詢層支持的好。那么設(shè)計(jì)的化就可以這樣:

4.3?標(biāo)簽開(kāi)發(fā)

統(tǒng)計(jì)類標(biāo)簽是最為基礎(chǔ)也最為常見(jiàn)的標(biāo)簽類型,例如,對(duì)于某個(gè)用戶來(lái)說(shuō),其性別、年齡、城市、星座、近7日活躍時(shí)長(zhǎng)、近7日活躍天數(shù)、近7日活躍次數(shù)等字段可以從用戶注冊(cè)數(shù)據(jù)、用戶訪問(wèn)、消費(fèi)數(shù)據(jù)中統(tǒng)計(jì)得出。該類標(biāo)簽構(gòu)成了用戶畫(huà)像的基礎(chǔ)。

規(guī)則類標(biāo)簽基于用戶行為及確定的規(guī)則產(chǎn)生。例如,對(duì)平臺(tái)上“消費(fèi)活躍”用戶這一口徑的定義為“近30天交易次數(shù)≥2”。在實(shí)際開(kāi)發(fā)畫(huà)像的過(guò)程中,由于運(yùn)營(yíng)人員對(duì)業(yè)務(wù)更為熟悉,而數(shù)據(jù)人員對(duì)數(shù)據(jù)的結(jié)構(gòu)、分布、特征更為熟悉,因此規(guī)則類標(biāo)簽的規(guī)則由運(yùn)營(yíng)人員和數(shù)據(jù)人員共同協(xié)商確定。

機(jī)器學(xué)習(xí)挖掘類標(biāo)簽通過(guò)機(jī)器學(xué)習(xí)挖掘產(chǎn)生,用于對(duì)用戶的某些屬性或某些行為進(jìn)行預(yù)測(cè)判斷。例如,根據(jù)一個(gè)用戶的行為習(xí)慣判斷該用戶是男性還是女性、根據(jù)一個(gè)用戶的消費(fèi)習(xí)慣判斷其對(duì)某商品的偏好程度。該類標(biāo)簽需要通過(guò)算法挖掘產(chǎn)生。

下篇文章中,我們繼續(xù)從標(biāo)簽存儲(chǔ)、標(biāo)簽調(diào)度推數(shù)、用戶畫(huà)像系統(tǒng)和用戶畫(huà)像的應(yīng)用來(lái)帶大家搭建一個(gè)完整的用戶畫(huà)像系統(tǒng)。

?滌生大數(shù)據(jù)往期精彩推薦

1.數(shù)倉(cāng)建模本質(zhì)到底是什么?為什么維度建能模脫穎而出?
2.企業(yè)數(shù)倉(cāng)DQC數(shù)據(jù)質(zhì)量管理實(shí)踐篇

3.企業(yè)數(shù)據(jù)治理實(shí)戰(zhàn)總結(jié)--數(shù)倉(cāng)面試必備

4.OneData理論案例實(shí)戰(zhàn)—企業(yè)級(jí)數(shù)倉(cāng)業(yè)務(wù)過(guò)程

5.中大廠數(shù)倉(cāng)模型規(guī)范與度量指標(biāo)有哪些?

6.大廠數(shù)倉(cāng)專家實(shí)戰(zhàn)分享:企業(yè)級(jí)埋點(diǎn)管理與應(yīng)用


手把手教你搭建用戶畫(huà)像系統(tǒng)(入門(mén)篇上)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
桐乡市| 琼结县| 五台县| 甘孜县| 闵行区| 和田县| 留坝县| 资源县| 枝江市| 陇川县| 绥德县| 扶余县| 金乡县| 镇远县| 滕州市| 临安市| 庆云县| 鄂托克前旗| 平定县| 青海省| 皮山县| 双江| 麦盖提县| 道真| 新丰县| 襄垣县| 萝北县| 绥中县| 平邑县| 青海省| 凤冈县| 怀柔区| 若尔盖县| 神木县| 鄯善县| 乳山市| 七台河市| 林州市| 郸城县| 扶沟县| 鸡泽县|