信息過濾——從協(xié)同推薦到深度學(xué)習(xí)
摘要:本文介紹了推薦算法的發(fā)展歷程,從最早基于標(biāo)簽的推薦到協(xié)同過濾和矩陣分解方法的應(yīng)用,再到后來深度學(xué)習(xí)技術(shù)的引入和發(fā)展。重點(diǎn)介紹了協(xié)同過濾和矩陣分解兩種方法,以及它們在解決推薦系統(tǒng)中的挑戰(zhàn)方面的應(yīng)用。最后,強(qiáng)調(diào)推薦算法在內(nèi)容產(chǎn)業(yè)中的重要性,是提高質(zhì)量和服務(wù)效率的關(guān)鍵之一。
關(guān)鍵詞:推薦算法、協(xié)同過濾、矩陣分解、深度學(xué)習(xí)、內(nèi)容產(chǎn)業(yè)
?
一、引言

? ? 復(fù)雜的信息流充斥在無邊無際的人類世界之中。面對刷不完的視頻和商品,我們該如何選擇?面對顧客的行為和偏好,我們該如何實現(xiàn)個性化?面對數(shù)不盡的廣告和郵件,我們又該如何推送給需要的人呢?推薦算法由此誕生,其本質(zhì)依舊是一個分類、預(yù)測、決策的模型,通過分類了解用戶特征從而實現(xiàn)按需投放,通過已有數(shù)據(jù)預(yù)測未知數(shù)據(jù)值從而更好評估用戶行為的可能性,通過大數(shù)據(jù)擬合從而得到一個更敏銳、更精準(zhǔn)的決策系統(tǒng)。
? ? 如果說推薦算法的源頭,我覺得它源于人與人之間的交往,內(nèi)有管鮑之交,鮑叔牙力薦管仲,終成一國之相;外有學(xué)術(shù)之圈,諾貝爾互相提名,因此最早的推薦都只發(fā)生在熟人之間。進(jìn)入城市化的社會,我們每天面對大量的陌生面孔,彼此不認(rèn)識更談不上了解,精準(zhǔn)評估一個用戶的偏好喜愛是非常困難的,于是心理學(xué)的即時觀察和對用戶的經(jīng)驗分析逐漸發(fā)展,當(dāng)然這一切都只發(fā)生在線下face to face,僅僅是一個人的定性評估。不過隨著線上用戶行為的增多,我們面對面的機(jī)會逐漸減少,該如何緊緊抓住用戶興趣,如何去量化用戶行為的可能性呢?于是真正意義上的推薦算法出現(xiàn)了。
?
二、綜述
? ? ?如果讓大家去想該如何推薦?大概率都會想到,喜歡看什么就推什么,這就是直覺的、最基本的推薦思維——基于標(biāo)簽的推薦。喜歡什么內(nèi)容推薦什么內(nèi)容,簡單地完成了價值傳遞的任務(wù),但是推送的某一內(nèi)容有可能是重復(fù)的,反而降低興趣;有可能喜歡的內(nèi)容庫存特別多,一股腦推給用戶,對于平臺是輕松很多,對于用戶卻是大海撈針,這一切都源于基于標(biāo)簽的推薦缺少信息精準(zhǔn)過濾的過程。1992年,施樂公司提出了協(xié)同過濾(Collaborative Filtering, CF)的方法,對于信息有著雙層過濾+收益反饋的機(jī)制——用戶興趣大過濾、基于用戶(user)的協(xié)同小過濾、效果反饋迭代直至收斂,其中基于用戶的協(xié)同過濾,基本思想基于用戶之間的相似性,來推送彼此的內(nèi)容。2003年Amazon提出基于物品(item)的協(xié)同過濾,基于物品之間的相似性,來推送評分高的內(nèi)容,改善了大數(shù)據(jù)相似度計算難的問題。2009年,Netflix推薦算法大賽的第三年,三個團(tuán)隊終于完成了要求的目標(biāo),獲得100萬美元獎金,在這次比賽中,矩陣分解(Matrix factorization)算法脫穎而出,借鑒數(shù)學(xué)已有的知識解決用戶特征的問題,大致方法經(jīng)歷SVD——Funk-SVD——Bias-SVD——SVD++——TimeSVD++——TSVD這幾步,本質(zhì)是預(yù)測模型,最終目的是分解成幾個小矩陣,通過幾個小矩陣的乘積來補(bǔ)全大矩陣沒有評分的位置,對于機(jī)器學(xué)習(xí)來說,問題轉(zhuǎn)化成如何獲得幾個最優(yōu)的小矩陣,保證有評分的誤差最小,迭代的方法是從算法的復(fù)雜度、解決稀疏度的方向入手??傊畬τ贜etflix這是一次非常成功的實踐,對于之后的《紙牌屋》的出現(xiàn)具有一定的基礎(chǔ)性貢獻(xiàn)。
? ? 總結(jié)一下,協(xié)同過濾法總共兩種,一種是基于鄰域的協(xié)同過濾,另一種是矩陣分解。這兩種方法都不需要用戶、物品的任何背景材料,屬于無監(jiān)督學(xué)習(xí),但是在數(shù)據(jù)稀疏性、冷啟動問題、超大用戶、內(nèi)容多樣性、參數(shù)指標(biāo)獲取方面都有發(fā)展完善的空間。


? ? 之后,2010年大阪大學(xué)提出了分解機(jī)(Factorization Machine, FM)的概念,進(jìn)一步建立矩陣分解的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)架構(gòu),之后的NFM(加入神經(jīng)網(wǎng)絡(luò))、AFM(加入注意力機(jī)制)、AutoInt。2014年Facebook提出了GBDT(Gradient Based Decision Tree)+LR(Logistic Regression)方法,引入決策樹和邏輯斯蒂回歸,全面擁抱機(jī)器學(xué)習(xí)和深度學(xué)習(xí),之后的Wide&Deep、Deep&Cross發(fā)展成XDeepFM,XDeepFM是抖音推薦算法的基石。
?
三、結(jié)論
? ? 經(jīng)過幾天的調(diào)研、讀論文、實踐,我對于推薦算法框架有了初步的認(rèn)知,了解大數(shù)據(jù)服務(wù)我們,又殺熟我們的工作機(jī)制,感嘆Netflix公司的前瞻性貢獻(xiàn),相信高手在民間?;ヂ?lián)網(wǎng)公司的發(fā)展不能光依靠砸錢來實現(xiàn)已有產(chǎn)業(yè)的壟斷,而應(yīng)該去研究如何提高內(nèi)容產(chǎn)業(yè)的質(zhì)量和服務(wù)效率,而推薦算法是其中之一。
? ? 如果認(rèn)真走入一個領(lǐng)域,你就會發(fā)現(xiàn)它一定是最樸素的道理加上變幻的規(guī)則約束,進(jìn)而呈現(xiàn)出精彩紛呈的世界,從哲學(xué)來看,大道至簡,卻也非常道。
?
四、參考文獻(xiàn)
[1]網(wǎng)飛如何用智商打敗對手?為何中國卻只有“優(yōu)愛騰”?
https://www.bilibili.com/video/BV1WL411w7Vz/?share_source=copy_web&vd_source=2493f65903f7e0745a991498a2234592
[2]https://zhuanlan.zhihu.com/p/389785446
[3]https://www.cnblogs.com/zhengzhicong/p/12817941.html
[4]https://zhuanlan.zhihu.com/p/451731153
[5]https://www.biaodianfu.com/matrix-factorization.html
[5]https://zhuanlan.zhihu.com/p/496849498
[6]https://www.zhihu.com/tardis/zm/art/624036684?source_id=1005
[7]https://github.com/liuq4360/recommender_systems_abc.git
[8] Goldberg D, Nichols D, Oki B M, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-70.
[9]Linden, G, Smith, et al. http://Amazon.com recommendations: item-to-item collaborative filtering[J]. Internet Computing, IEEE, 2003, 7(1):76-80.
[10] Koren Y , Bell R , Volinsky C . Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009, 42(8):30-37.
[11] Rendle S . Factorization Machines[C]// ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.
[12] He X , Pan J , Ou J , et al. Practical Lessons from Predicting Clicks on Ads at Facebook[M]. ACM, 2014.
[13] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
[14] Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[M]//Proceedings of the ADKDD'17. 2017: 1-7.
[15] Lian J, Zhou X, Zhang F, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1754-1763.
[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.