最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

電商行業(yè)智能推薦引擎的探索 :機(jī)器學(xué)習(xí)助力母嬰電商

2021-02-17 22:16 作者:拓端tecdat  | 我要投稿

原文 :http://tecdat.cn/?p=984

?

電商行業(yè)智能推薦引擎的探索?機(jī)器學(xué)習(xí)助力母嬰電商

?

概要

拓端幫助國(guó)內(nèi)母嬰電商公司創(chuàng)建智能推薦引擎,由此打造精準(zhǔn)、高效的購(gòu)物體驗(yàn),探索如何在大規(guī)模數(shù)據(jù)上實(shí)現(xiàn)各種推薦策略,進(jìn)行策略優(yōu)化,構(gòu)建高效的推薦引擎的解決方案。

業(yè)務(wù)挑戰(zhàn)

隨著電商網(wǎng)站用戶數(shù)量和商品數(shù)量的增加,數(shù)據(jù)成為影響推薦質(zhì)量的重要因素。作為電子商務(wù)中一個(gè)熱門領(lǐng)域,價(jià)值萬(wàn)億的中國(guó)母嬰市場(chǎng)隨著二孩政策的全面放開(kāi)已經(jīng)進(jìn)入高增速增長(zhǎng)時(shí)代,母嬰消費(fèi)市場(chǎng)每年可新增超300億母嬰消費(fèi),至少帶來(lái)年均13%左右的新增長(zhǎng)空間,巨大的市場(chǎng)必然蘊(yùn)含著巨大的商機(jī)和強(qiáng)大的利潤(rùn)空間。

眾所周知,解決信息過(guò)載的方式主要有類目導(dǎo)航、搜索、推薦,還有目前大熱的聊天機(jī)器人(chatbot),但其本質(zhì)也是基于推薦系統(tǒng)和知識(shí)圖譜實(shí)現(xiàn)的。推薦不同于或者優(yōu)于搜索的地方在于:搜索需要用戶知道自己需要什么,而推薦則可以做到幫助用戶發(fā)現(xiàn)自己需要什么或者讓你需要的信息主動(dòng)找到你,而且更加個(gè)性化,甚至能做到“比你自己更了解你自己”。

傳統(tǒng)推薦機(jī)制主要有基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制的工作原理和基于內(nèi)容推薦機(jī)制的基本原理。

基于人口統(tǒng)計(jì)學(xué)的推薦機(jī)制的工作原理

?

豆瓣的推薦“豆瓣猜”

?

基于內(nèi)容推薦機(jī)制的基本原理

?

而母嬰類的商品具有種類多、功能相似的特點(diǎn),用戶在購(gòu)買時(shí)會(huì)出現(xiàn)“信息迷航”的問(wèn)題,同時(shí),由于母嬰市場(chǎng)激烈的競(jìng)爭(zhēng),商品同質(zhì)化越來(lái)越嚴(yán)重,傳統(tǒng)的推薦機(jī)制能難滿足業(yè)務(wù)需求。

對(duì)于本次合作而言,所面臨的主要挑戰(zhàn)就是如何設(shè)計(jì)智能推薦引擎從海量商品中準(zhǔn)確找到用戶所需要的商品。

混合IBCF算法的離線與實(shí)時(shí)的分布式設(shè)計(jì)實(shí)現(xiàn)

在現(xiàn)行的 Web 站點(diǎn)上的推薦往往都不是單純只采用了某一種推薦的機(jī)制和策略,往往是將多個(gè)方法混合在一起,從而達(dá)到更好的推薦效果。結(jié)合業(yè)務(wù)痛點(diǎn),我們采用一種基于矩陣填充技術(shù)的混合IBCF算法。首先利用準(zhǔn)確度指標(biāo)找出SVD的最優(yōu)參數(shù)和混合IBCF算法的最佳權(quán)重,然后使用SVD降維方法對(duì)原始的高維稀疏矩陣進(jìn)行預(yù)測(cè)填充,最后使用IBCF在用戶所屬類中尋找目標(biāo)用戶最近鄰并使用最佳權(quán)重合并結(jié)果產(chǎn)生推薦。該算法利用用戶與商品之間的潛在關(guān)系克服了稀疏性問(wèn)題,同時(shí)保留了可離線建模、可擴(kuò)展性好等優(yōu)點(diǎn)。

以母嬰產(chǎn)品為例,通過(guò)分析母嬰類產(chǎn)品,收集數(shù)據(jù)集構(gòu)造母嬰領(lǐng)域不同類型產(chǎn)品的特征向量。提取母嬰類偏好系數(shù)不為0的用戶為目標(biāo)用戶,通過(guò)用戶訪問(wèn)的時(shí)間偏好來(lái)確定服務(wù)推薦的權(quán)重,計(jì)算其訪問(wèn)的母嬰類與目標(biāo)產(chǎn)品的特征向量的相似度來(lái)確定推薦產(chǎn)品的類型。最后,在母嬰之家購(gòu)物平臺(tái)上實(shí)踐結(jié)果表明,該方法確實(shí)可提升用戶的個(gè)性化推薦。

?

用戶個(gè)性化需求解決方案設(shè)計(jì)

提高計(jì)算精度——優(yōu)化k值,SVD和ItemCF的合并

由于母嬰類商品的相似性較高,不同商品具有比較固定的相似度,所以我們使用基于物品的協(xié)同過(guò)濾算法(IBCF)來(lái)進(jìn)行推薦,在推薦過(guò)程中可以預(yù)先在線下計(jì)算好不同商品之間的相似度結(jié)果,然后把結(jié)果存在相似度表中,當(dāng)推薦時(shí)進(jìn)行表的查詢,預(yù)測(cè)用戶可能的偏好值,從而進(jìn)行推薦。同時(shí),由于母嬰商品相似度高,當(dāng)推薦過(guò)程的運(yùn)算量比較大的時(shí)候,使用物品的一個(gè)小部分子集也可以得到高質(zhì)量的預(yù)測(cè)結(jié)果。

針對(duì)上述問(wèn)題,使用SVD方法將用戶評(píng)分分解為不同的特征及這些特征對(duì)應(yīng)的重要程度,利用用戶與商品之間潛在的關(guān)系,用初始評(píng)分矩陣的奇異值分解去抽取一些本質(zhì)的特征,降低數(shù)據(jù)維度來(lái)進(jìn)行推薦,從而提高運(yùn)算效率。

由于SVD算法中保留的維數(shù)k很重要,也不容易選取,k如果太小,容易失去原始數(shù)據(jù)中重要的信息,不能得到用戶評(píng)分矩陣的重要結(jié)構(gòu),k如果選大了,達(dá)不到降維的目的,而且容易過(guò)擬合訓(xùn)練數(shù)據(jù),因此測(cè)試數(shù)據(jù)時(shí)需要先對(duì)k的取值進(jìn)行優(yōu)化,選取最優(yōu)的k值然后再進(jìn)行實(shí)驗(yàn)。

更客觀地評(píng)價(jià)用戶對(duì)商品的興趣——用戶行為權(quán)重、用戶遺忘曲線

首先根據(jù)用戶的不同行為(bhv)定義偏好權(quán)重,行為: "投訴" 、"下單"、 "商品瀏覽" 、"商品加入購(gòu)物車" 、"評(píng)論"分別對(duì)應(yīng)偏好分值-1、4、3、2、3。

然而傳統(tǒng)的推薦基于用戶興趣是固定不變的假設(shè),即用戶興趣不隨時(shí)間的變化而改變,因此,這些方法不能反映用戶興趣的變化。同時(shí),被推薦的資源(產(chǎn)品)往往具有時(shí)效性,用戶的興趣也往往隨時(shí)間的不同而變化。

針對(duì)以上問(wèn)題,為了滿足用戶的個(gè)性化需求,我們提出了基于時(shí)間加權(quán)的協(xié)同過(guò)濾算法,考慮了時(shí)間對(duì)推薦質(zhì)量的影響,認(rèn)為用戶興趣隨時(shí)間的流逝而衰減,即某個(gè)用戶感興趣的資源最可能和他近期訪問(wèn)過(guò)的資源相似。

?

其中,艾賓浩斯遺忘曲線可以較好的描述用戶瀏覽商品和遺忘的過(guò)程。它認(rèn)為當(dāng)用戶瀏覽商品時(shí),商品信息輸入大腦后,遺忘也就隨之開(kāi)始了。遺忘率隨時(shí)間的流逝而先快后慢,特別是在剛剛識(shí)記的短時(shí)間里,遺忘最快。遵循艾賓浩斯遺忘曲線所揭示的記憶規(guī)律,對(duì)所瀏覽的商品及時(shí)進(jìn)行推薦,可以提升用戶的個(gè)性化推薦。

因此,我們根據(jù)用戶對(duì)商品行為距今的時(shí)間差對(duì)用戶的偏好進(jìn)行權(quán)重調(diào)整,其中時(shí)間權(quán)重的計(jì)算使用艾賓浩斯(H.Ebbinghaus)遺忘率 ,得到最終的用戶行為偏好為。

用戶購(gòu)買周期性問(wèn)題解決——懲罰上一周購(gòu)買

然而,常常存在這樣一種現(xiàn)象,用戶往往在根據(jù)自己的興趣愛(ài)好購(gòu)買了商品之后,一段時(shí)間內(nèi)會(huì)對(duì)所購(gòu)買物品相似的物品產(chǎn)生“疲倦期”,會(huì)更加趨向于選擇與以前購(gòu)買過(guò)的商品較為相異的那些新商品進(jìn)行購(gòu)買。從本質(zhì)上講,這種情況往往發(fā)生在作為用戶短期興趣的資源上,這樣的用戶興趣會(huì)隨時(shí)間的接近而衰減。因此,如果能有效識(shí)別出用戶的短期興趣,在預(yù)測(cè)用戶最感興趣的資源時(shí)加以考慮,區(qū)分不同時(shí)間對(duì)推薦的不同影響,可以提升用戶的個(gè)性化推薦。

因此,進(jìn)一步清晰區(qū)分用戶長(zhǎng)期興趣和短期興趣在預(yù)測(cè)評(píng)分時(shí)所起的不同作用。認(rèn)為預(yù)測(cè)資源的評(píng)分時(shí),作為短期興趣的可進(jìn)行衰減。

Item畫像設(shè)計(jì)

變量

描述

變量類型

DeviceIdentity

用戶id

名義變量

SKUId_All

商品id

名義變量

is_temai

是否特賣商品

名義變量

bhv_type

用戶行為類型

名義變量

bhv_cnt

行為數(shù)量

數(shù)值變量

bhv_datetime

行為時(shí)間

日期變量

基于Item畫像的相似度計(jì)算是Item間相似度計(jì)算中至關(guān)重要的一部分,也是增加Item間區(qū)分度的有效手段(因?yàn)橥|(zhì)化都比較嚴(yán)重),同時(shí)也通過(guò)這種方式將CB算法融入到了CF中。

SVD算法參數(shù)k的設(shè)定

SVD算法中保留的維數(shù)k很重要,也不容易選取,k如果太小,容易失去原始數(shù)據(jù)中重要的信息,不能得到用戶評(píng)分矩陣的重要結(jié)構(gòu),k如果選大了,達(dá)不到降維的目的,而且容易過(guò)擬合訓(xùn)練數(shù)據(jù),本節(jié)利用測(cè)試集數(shù)據(jù)先對(duì)k的取值進(jìn)行優(yōu)化,選取最優(yōu)的k值然后再進(jìn)行實(shí)驗(yàn)。

?

奇異值分解(SVD)中k值優(yōu)化

性能比較

為了驗(yàn)證所提出的算法的性能,將傳統(tǒng)的推薦算法和提出的基于SVD的協(xié)同過(guò)濾的算法(SVD approximation)進(jìn)行TOP-N實(shí)驗(yàn)比對(duì)。其中,使用SVD對(duì)用戶-商品評(píng)價(jià)矩陣降低稀疏程度時(shí)使用上述實(shí)驗(yàn)得到的45作為最佳維度。實(shí)驗(yàn)指標(biāo)使用ROC曲線性能。在測(cè)試數(shù)據(jù)集上,這五種方法在不同近鄰個(gè)數(shù)上的ROC性能表現(xiàn)如圖所示,其中橫坐標(biāo)為FPR,縱坐標(biāo)是TPR值。

?

不同算法ROC曲線的比較

?

不同算法準(zhǔn)確度的比較

在圖中,曲線random item代表隨機(jī)推薦算法,曲線popular item代表熱門物品推薦算法,曲線user-based cf代表基于用戶的協(xié)同過(guò)濾算法,曲線item-based cf代表基于物品的協(xié)同過(guò)濾算法,曲線SVD approximation代表基于SVD矩陣分解的協(xié)同過(guò)濾算法。

可以看到基于SVD矩陣分解的協(xié)同過(guò)濾算法在ROC指標(biāo)上要優(yōu)于其他算法。

線上AB實(shí)驗(yàn)評(píng)估

主要采用的評(píng)價(jià)指標(biāo)包括點(diǎn)擊量、點(diǎn)擊率等。算法效果簡(jiǎn)述如下:

商品推薦方面(原算法為基于點(diǎn)擊行為的CF算法):

離線:PC商品詳情頁(yè)推薦點(diǎn)擊率提升12%;

實(shí)時(shí):PC商品詳情頁(yè)推薦點(diǎn)擊率提升3%左右。該部分經(jīng)過(guò)后續(xù)優(yōu)化,效果略有提升。

用戶行為統(tǒng)計(jì)分析

個(gè)性化推薦

推薦相似行為用戶

后續(xù)可優(yōu)化點(diǎn)

1、如何度量用戶的社交信息。根據(jù)用戶評(píng)分信息使用皮爾遜相似度來(lái)衡量社交網(wǎng)絡(luò)中用戶關(guān)系權(quán)重,標(biāo)準(zhǔn)單一,算法準(zhǔn)確度受到一定影響。因此,利用社交網(wǎng)絡(luò)中的信息更加準(zhǔn)確地衡量用戶關(guān)系是值得進(jìn)一步研究的問(wèn)題。

2、界定短期偏好的時(shí)間閾值的自動(dòng)調(diào)整。提出的算法在離線階段結(jié)束后,時(shí)間閾值已經(jīng)確定,然而在實(shí)際應(yīng)用中用戶數(shù)目、用戶行為、用戶關(guān)系都是不斷變化的。


電商行業(yè)智能推薦引擎的探索 :機(jī)器學(xué)習(xí)助力母嬰電商的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
吕梁市| 孝昌县| 寿宁县| 芷江| 宣武区| 延吉市| 清水河县| 什邡市| 齐河县| 醴陵市| 梅河口市| 大新县| 通许县| 蒙自县| 威远县| 裕民县| 杭锦旗| 囊谦县| 蒲城县| 乐清市| 林西县| 晴隆县| 邵阳县| 鲁甸县| 南雄市| 怀宁县| 安远县| 锡林浩特市| 盐池县| 台南县| 新巴尔虎右旗| 西畴县| 涿鹿县| 白水县| 新郑市| 施秉县| 邵阳市| 桓台县| 华坪县| 正定县| 大英县|