微信“看一看”設計拆解(上)
后臺回復?進階?查看《各行業(yè)產(chǎn)品設計方案》
本文來源:騰訊技術工程
?
1.1 看一看的場景
微信作為國內(nèi)最大用戶群體的應用,在人們的生活,工作,學習中提供社交功能的同時,還提供了工具,游戲,購物,支付,內(nèi)容,搜索,小程序等服務。看一看作為微信的重要組成部分,在原有公眾平臺資訊閱讀的基礎上,為用戶提供中心化的內(nèi)容消費平臺,旨在提升內(nèi)容發(fā)現(xiàn)效率,優(yōu)化內(nèi)容質(zhì)量,豐富內(nèi)容種類。
1.2 看一看的質(zhì)量控制
與其他很多資訊產(chǎn)品上線初的野蠻生長不一樣,質(zhì)量控制一開始就作為看一看上線標準被提出并進行了大量的投入。質(zhì)量控制的必要性是由于多方面的因素決定的。
(內(nèi)在屬性)一個產(chǎn)品的出身和環(huán)境決定了其的調(diào)性,微信內(nèi)在也決定了看一看的調(diào)性。在這里,調(diào)性這個詞更多的是形容內(nèi)容質(zhì)量可以被用戶接受的底線。用戶對微信的期待也提高了這個底線。
(外部壓力)微信的每一次改動都會受到廣泛的關注,在功能上線初期面臨著比其他應用更大的輿論壓力和監(jiān)管壓力。
(黑產(chǎn)對抗)因為用戶多,流量大,強大的經(jīng)濟效益引來黑產(chǎn)的參與,使得內(nèi)容生產(chǎn)的大環(huán)境很差,低質(zhì)量數(shù)據(jù)充斥各個角落;問題也在不斷地的變化,識別控制難度也在持續(xù)加大。
總體框架
既然質(zhì)量控制作為推薦系統(tǒng)必不可少的一部分,那么在推薦系統(tǒng)中處質(zhì)量控制處于什么位置,包含哪些子模塊,又是從哪幾方面方面進行控制?
首先,我們先看一下內(nèi)容數(shù)據(jù)在推薦系統(tǒng)的一生。
2.1 數(shù)據(jù)的一生
數(shù)據(jù)從內(nèi)容生產(chǎn)方發(fā)表產(chǎn)生,由平臺收集數(shù)據(jù)。這里生產(chǎn)方來自四面八方,生產(chǎn)的內(nèi)容五花八門,質(zhì)量也是參差不齊。所以,平臺將數(shù)據(jù)接入之后第一件事情就是將這些內(nèi)容進行格式化和特征提取,方便后面的流程能通用化地處理這些內(nèi)容數(shù)據(jù)。
內(nèi)容經(jīng)過前面的初步處理后,質(zhì)量控制模塊根據(jù)已有的特征對內(nèi)容進行過濾,主要是過濾不符合平臺規(guī)則的低質(zhì)量數(shù)據(jù)和提供后面排序需要考慮的質(zhì)量因子。這里面涉及到過濾效率的問題,一般會分為粗過濾還有細過濾。排序推薦模塊將根據(jù)內(nèi)容特征還有用戶行為對數(shù)據(jù)進行排序。
最后,平臺將內(nèi)容推薦給用戶進行消費,消費的過程中會與內(nèi)容產(chǎn)生很多交互行為。這些行為數(shù)據(jù),可以用于平臺的質(zhì)量控制和推薦排序;也可以反饋給生產(chǎn)者,讓生產(chǎn)者能夠了解到內(nèi)容被消費的情況,生產(chǎn)更多符合用戶需求的內(nèi)容。
2.2 多維度控制
數(shù)據(jù)的一生中,我們可以看到平臺都是通過對發(fā)表內(nèi)容本身進行檢測來進行質(zhì)量控制,這顯然是不夠的。一個控制框架的有效運行不能僅僅在一個地方進行監(jiān)控,需要全面,多維度共同作用。我們可以抽象一下平臺,生產(chǎn),還有用戶。我們會發(fā)現(xiàn)其實除了對平臺自身檢測能力進行提升外,也可以對生產(chǎn)者和用戶進行引導,評估。
根據(jù)生產(chǎn)者生產(chǎn)內(nèi)容的質(zhì)量,還有用戶對內(nèi)容的反饋,平臺可以對生產(chǎn)者進行分級分類。對不同等級的生產(chǎn)者,使用不同質(zhì)量控制策略,如,高質(zhì)量的賬號頒發(fā)個免檢標簽,在質(zhì)量控制的時候避免誤傷。而對于一些已經(jīng)被檢測到有低質(zhì)量內(nèi)容的賬號進行一定時間的封禁,減少相似問題的爆發(fā),增加長尾問題的召回,提升系統(tǒng)的響應速度。不同類目也是同樣的道理,比如高危的內(nèi)容類(社會民生,養(yǎng)生健康,娛樂)需要加強控制。
而對于用戶,我們同樣可以根據(jù)一下用戶的基礎數(shù)據(jù)(地域,年齡,性別)和用戶在微信內(nèi)的一下閱讀信息,對用戶進行分類。不同用戶可以使用不同的控制策略。這樣在保證了用戶對體驗有不同要求的前提下,盡可能地保證推薦系統(tǒng)的效率。
2.3 輔助模塊
除了上面說的三個部分之外,還有幾個同樣非常重要的質(zhì)量控制輔助模塊,這些模塊對保證整個質(zhì)量控制的正常運行至關重要。
監(jiān)控系統(tǒng):監(jiān)控系統(tǒng)需要對平臺,生產(chǎn),用戶的各個方面進行監(jiān)控,有些數(shù)值監(jiān)控指標可以通過機器持續(xù)監(jiān)控,而有些數(shù)據(jù)本身的問題則需要人工的輪詢與審核,還有就是新問題的發(fā)現(xiàn)與歸納匯總。其中最重要的是能夠進行全方位覆蓋,不同范圍,不同領域,有時候問題可能隱藏的茫茫大盤數(shù)據(jù)中。
干預系統(tǒng):干預系統(tǒng)是對問題出現(xiàn)后,進行快速處理的手段。這樣能夠在模型策略迭代較慢的時候暫時壓制問題,減少影響范圍。干預系統(tǒng)除了生效快之外,還有一個重要的能力是相似內(nèi)容的查找(去重指紋),如相似標題的封禁和相似圖片的封禁。
標注系統(tǒng):標注系統(tǒng)作為一個提升樣本收集效率的平臺,不僅能有效提升標注人員的標注效率,進而有效提升模型的迭代效率;而且標注系統(tǒng)方便對問題的收集,總結(jié),歸納,形成各個領域的知識庫。
數(shù)據(jù)與質(zhì)量
前面介紹了質(zhì)量控制的必要性,也介紹了質(zhì)量控制的大體框架。那么到底數(shù)據(jù)是指哪些數(shù)據(jù)?所謂的質(zhì)量又指的是哪些質(zhì)量指標?這些數(shù)據(jù)跟這些質(zhì)量指標帶給我們什么問題與挑戰(zhàn)呢?
3.1 內(nèi)容數(shù)據(jù)源
看一看的數(shù)據(jù)從來源上分包括公眾平臺,騰訊新聞,騰訊視頻,企鵝號,微視,快手等。從內(nèi)容形式上分有文章,新聞,視頻,圖片等。樣式豐富的數(shù)據(jù)在滿足不同用戶的內(nèi)容需求的同時也加大了監(jiān)管的難度。
3.2 質(zhì)量指標
同時,看一看以用戶的體驗為出發(fā)點結(jié)合具體業(yè)務需要建立了一套質(zhì)量指標體系。這里指標隨著業(yè)務的發(fā)展不斷在增加,含義也在不斷的豐富。多維度的指標可以為業(yè)務的質(zhì)量過濾和推薦排序提供更多的個性化的選擇。
3.3 問題與挑戰(zhàn)
那么,我們的問題和挑戰(zhàn)是什么呢?我們先來看一下日常工作中經(jīng)常遇到的一些對話。事情的本質(zhì)往往隱藏在復雜的表面下。
豐富的數(shù)據(jù)源,多維度的質(zhì)量指標,個性化的業(yè)務場景帶來的其實是組合爆炸問題。如果對每一種組合都單獨處理,不僅導致大量人力的浪費;同時,也無法對速度要求高的質(zhì)量控制問題進行快速響應。毫無疑問從體系上進行通用化,模板化,可復用,可遷移是我們解決問題的方向。下一節(jié),我們會從一個普通任務的迭代周期出發(fā),分析上面對話對應的迭代過程的那一部分,并對相應的部分進行相應的通用化。