大數(shù)據(jù)實(shí)戰(zhàn):用戶畫像之標(biāo)簽如何治理
1.前言
書接上回:手把手教你搭建用戶畫像系統(tǒng)(入門篇上);手把手教你搭建用戶畫像系統(tǒng)(入門篇下),我們介紹了搭建一個完整的用戶畫像項(xiàng)目,也開設(shè)了對應(yīng)的項(xiàng)目課程《滌生大數(shù)據(jù)之互聯(lián)網(wǎng)金融用戶畫像項(xiàng)目》,相信入坑的小伙伴學(xué)完以后,都知道一個用戶畫像系統(tǒng)的從0到1的過程。
在建設(shè)畫像體系中最重要的就是打標(biāo)簽,經(jīng)過前期標(biāo)簽體系設(shè)計(jì)、標(biāo)簽加工,標(biāo)簽終于可以上線,隨著標(biāo)簽上線一段時間后,我們開始關(guān)心每天占用計(jì)算資源與存儲空間,跑出來的上百個標(biāo)簽,業(yè)務(wù)同學(xué)真的用到了多少,業(yè)務(wù)收益是否能覆蓋數(shù)據(jù)成本呢?標(biāo)簽上線后,其質(zhì)量怎么樣,是否存在老規(guī)則不適用、需要持續(xù)優(yōu)化的情況?那今天我們就來講講數(shù)據(jù)治理應(yīng)用中的用戶畫像“標(biāo)簽治理”。
整體的優(yōu)化我們可以從下面五個維度考慮:

2.標(biāo)簽的質(zhì)量
根據(jù)標(biāo)簽的時效性、標(biāo)簽覆蓋度、標(biāo)簽準(zhǔn)確性等維度評估用戶被打標(biāo)情況,反映標(biāo)簽規(guī)則的合理性。
覆蓋率:主要是評估被打標(biāo)的用戶數(shù)在總用戶數(shù)的占比
比如【首次登錄app時間】的標(biāo)簽,全量用戶有5000萬,其中有3000萬打上了具體時間,那么剩下的2000萬沒有打上任何時間的標(biāo)簽,也就是說當(dāng)前首次登錄app時間的標(biāo)簽覆蓋率是60%。
如果覆蓋率太低的話,在使用標(biāo)簽進(jìn)行人群圈選的時候,用戶體量太小,可用性比較低。在后續(xù)業(yè)務(wù)使用過程中,和真實(shí)情況會有較大的偏差。
準(zhǔn)確性:主要評估用戶被打標(biāo)簽的實(shí)際情況是否準(zhǔn)確
比如我們常用的【理財(cái)產(chǎn)品購買偏好】標(biāo)簽,通過用戶對該品類的金額和下單次數(shù)能夠直接反饋出用戶對該品類的喜愛程度。實(shí)際場景應(yīng)用的價值,比如說用戶偏好數(shù)學(xué)的學(xué)科,那么針對該用戶投放數(shù)學(xué)品類的優(yōu)惠券,去吸引用戶使用優(yōu)惠券購買數(shù)學(xué)商品,這時準(zhǔn)確性就起到至關(guān)重要的作用,如果準(zhǔn)確性比較低的話,那么直接影響到用戶的購買行為。
時效性:主要評估標(biāo)簽數(shù)據(jù)的時間的保證
我們常用的一些基礎(chǔ)或者核心標(biāo)簽是需要保證數(shù)據(jù)的時效性,比如push場景中【活躍】、【地域】、【性別】都會影響到push策略的收益,那么早上10點(diǎn)要做push動作,數(shù)據(jù)能否就緒進(jìn)行使用,就是變得至關(guān)重要的。
3.標(biāo)簽使用
主要評估標(biāo)簽在使用、分析、調(diào)度場景的情況
標(biāo)簽引用:如人群圈選直接反應(yīng)該標(biāo)簽的使用現(xiàn)狀,有多少人用該標(biāo)簽進(jìn)行的圈選人群,使用的次數(shù)越多,代表著該標(biāo)簽符合場景、標(biāo)簽數(shù)據(jù)比較可信。
人群分析:指標(biāo)簽在人群分析、人群對比等分析場景中使用的次數(shù)。標(biāo)簽在群組畫像分析、群組畫像對比分析、單用戶畫像分析功能中被分析的情況,計(jì)算“標(biāo)簽分析次數(shù)”指標(biāo)。
標(biāo)簽調(diào)用:標(biāo)簽通過數(shù)據(jù)API被外部應(yīng)用查詢的次數(shù),計(jì)算“標(biāo)簽調(diào)用次數(shù)”指標(biāo)。

4.標(biāo)簽的關(guān)注度
標(biāo)簽關(guān)注度,用以評估被搜索、查看、收藏的情況。
標(biāo)簽搜索:標(biāo)簽被用戶搜索的情況,計(jì)算“搜索次數(shù)”指標(biāo)。
標(biāo)簽查看:標(biāo)簽被點(diǎn)擊查看基礎(chǔ)信息、分析頁面等的次數(shù),計(jì)算“查看次數(shù)”指標(biāo)。
標(biāo)簽收藏:收藏該標(biāo)簽的用戶數(shù),計(jì)算“收藏用戶數(shù)”指標(biāo)。

5.標(biāo)簽持續(xù)優(yōu)化
根據(jù)低頻率標(biāo)簽和無使用場景標(biāo)簽進(jìn)行處理下線治理,優(yōu)化整體標(biāo)簽架構(gòu)和計(jì)算的資源,從計(jì)算效率和計(jì)算成本進(jìn)行收益評估。
6.標(biāo)簽的安全
俗話說“安全無小事,防患于未然”,雖說數(shù)據(jù)在公司內(nèi)部進(jìn)行使用,但是關(guān)乎于用戶隱私或者公司經(jīng)營數(shù)據(jù)還是要謹(jǐn)慎再謹(jǐn)慎。標(biāo)簽安全相關(guān)的策略有:
標(biāo)簽使用是否需要申請授權(quán):標(biāo)簽發(fā)布后,其他人使用該標(biāo)簽,是否需要申請審批。
標(biāo)簽是否進(jìn)行行級權(quán)限控制:上面我們控制了標(biāo)簽的列權(quán)限,行級權(quán)限反映該標(biāo)簽是否設(shè)置了行級權(quán)限。
標(biāo)簽是否脫敏:標(biāo)簽是否進(jìn)行脫敏。

7.總結(jié)
以上就是我們從幾個維度對治理標(biāo)簽的探討,其實(shí)不管是數(shù)據(jù)治理,還是標(biāo)簽治理,個人覺得最重要的是要能合理的評估出來收益。當(dāng)然我們也可以通過上面的各個維度,來給標(biāo)簽評分,一般思路就是函數(shù)+規(guī)則去評定,使用度、關(guān)注度這種,需要先通過函數(shù)轉(zhuǎn)化成評分,然后在進(jìn)行加權(quán),收藏這種主動行為更有傾向,比重就高一些。像標(biāo)簽安全,比較重要的,如果敏感數(shù)據(jù)未脫敏,并且超過一定范圍,直接給0分。
所有維度權(quán)重加起來等于100%,具體實(shí)際權(quán)重可以根據(jù)目標(biāo)和關(guān)注點(diǎn)進(jìn)行調(diào)整。如果最終評分太低的話,我們就可以對標(biāo)簽進(jìn)行優(yōu)化調(diào)整或者 下線的操作。
