最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

愛(ài)奇藝AI比賽:WSDM用戶留存預(yù)測(cè)挑戰(zhàn)賽Baseline

2021-12-16 17:52 作者:深度之眼官方賬號(hào)  | 我要投稿

Baseline是提供思路的,不是照著抄的哦

賽題鏈接

http://challenge.ai.iqiyi.com/detail?raceId=61600f6cef1b65639cd5eaa6

賽題描述

愛(ài)奇藝是中國(guó)和世界領(lǐng)先的高品質(zhì)視頻娛樂(lè)流媒體平臺(tái),每個(gè)月有超過(guò)5億的用戶在愛(ài)奇藝上享受娛樂(lè)服務(wù)。愛(ài)奇藝秉承“悅享品質(zhì)”的品牌口號(hào),打造涵蓋影劇、綜藝、動(dòng)漫在內(nèi)的專業(yè)正版視頻內(nèi)容庫(kù),和“隨刻”等海量的用戶原創(chuàng)內(nèi)容,為用戶提供豐富的專業(yè)視頻體驗(yàn)。

愛(ài)奇藝手機(jī)端APP,通過(guò)深度學(xué)習(xí)等最新的AI技術(shù),提升用戶個(gè)性化的產(chǎn)品體驗(yàn),更好地讓用戶享受定制化的娛樂(lè)服務(wù)。我們用“N日留存分”這一關(guān)鍵指標(biāo)來(lái)衡量用戶的滿意程度。例如,如果一個(gè)用戶10月1日的“7日留存分”等于3,代表這個(gè)用戶接下來(lái)的7天里(10月2日~8日),有3天會(huì)訪問(wèn)愛(ài)奇藝APP。預(yù)測(cè)用戶的留存分是個(gè)充滿挑戰(zhàn)的難題:不同用戶本身的偏好、活躍度差異很大,另外用戶可支配的娛樂(lè)時(shí)間、熱門內(nèi)容的流行趨勢(shì)等其他因素,也有很強(qiáng)的周期性特征。

本次大賽基于愛(ài)奇藝APP脫敏和采樣后的數(shù)據(jù)信息,預(yù)測(cè)用戶的7日留存分。參賽隊(duì)伍需要設(shè)計(jì)相應(yīng)的算法進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)。

數(shù)據(jù)描述

本次比賽提供了豐富的數(shù)據(jù)集,包含視頻數(shù)據(jù)、用戶畫像數(shù)據(jù)、用戶啟動(dòng)日志、用戶觀影和互動(dòng)行為日志等。針對(duì)測(cè)試集用戶,需要預(yù)測(cè)每一位用戶某一日的“7日留存分”。7日留存分取值范圍從0到7,預(yù)測(cè)結(jié)果保留小數(shù)點(diǎn)后2位。

評(píng)價(jià)指標(biāo)

本次比賽是一個(gè)數(shù)值預(yù)測(cè)類問(wèn)題。評(píng)價(jià)函數(shù)使用:

n是測(cè)試集用戶數(shù)量,F(xiàn)是參賽者對(duì)用戶的7日留存分預(yù)測(cè)值,A是真實(shí)的7日留存分真實(shí)值。

數(shù)據(jù)集簡(jiǎn)單梳理

這里主辦方給了5張表,主要包括了兩個(gè)維度的信息,第一個(gè)維度是用戶和APP交互的信息,第二個(gè)維度是用戶和Video的交互信息,用戶在登錄APP的時(shí)候,會(huì)與若干的Video進(jìn)行交互,這里是的APP數(shù)據(jù)和Video的數(shù)據(jù)可以認(rèn)為是一個(gè)上下級(jí)的關(guān)系,下面簡(jiǎn)單的介紹一下主辦方給的這5張表。


1.User portrait data

這部分?jǐn)?shù)據(jù)主要描述了User的個(gè)人信息

2.APP launch logs

這張表是本次比賽的核心表,這里記錄的用戶和APP交互的歷史記錄,也是我們后續(xù)標(biāo)簽構(gòu)造的來(lái)源

3.Video related data

這張表是描述視頻相關(guān)的信息,這些視頻是由用戶在登錄APP之后觀看所得

4.User playback data

這張表記錄了每個(gè)用戶觀看視頻的歷史記錄,并且記錄了每次的觀看時(shí)間

5.User interaction data

這張表記錄了每個(gè)用戶和視頻發(fā)生交互時(shí)的交互方式,和第四張表有一點(diǎn)重復(fù)

賽題標(biāo)簽的理解

本次賽題需要比賽選手預(yù)測(cè)user在指定的時(shí)間點(diǎn)后7天有幾天登陸愛(ài)奇藝APP,但是這里主辦方并沒(méi)有給相關(guān)標(biāo)簽,這里就需要我們自己通過(guò)用戶登陸APP的日志來(lái)手動(dòng)進(jìn)行構(gòu)造,這里的構(gòu)造的思路如下

第一步:從APP launch logs中提取出每個(gè)用戶的登錄APP的序列

第二步:我們對(duì)所有用戶選擇一個(gè)end_date作為參考點(diǎn),將end_date后7天的用戶等APP的天數(shù)作為標(biāo)簽,這樣便人為構(gòu)造了標(biāo)簽,注意這里的end_date的選取有兩種情況

  • 第一種情況是用戶登錄APP的記錄過(guò)少,如果用戶登錄APP的最新的天與最早登錄APP的天之間少于7天的話,我們認(rèn)為這種用戶的歷史記錄過(guò)少,這里我們對(duì)這種用戶直接隨機(jī)選取end_data

  • 第二種情況是用戶登錄APP的記錄較多,如果用戶 登錄APP的最新的天與最早登錄APP的天之間大于7天的話,那么我們認(rèn)為這類用戶的歷史行為信息就較為豐富,我們?cè)谶x取end_data的時(shí)候就盡可能在用戶的歷史信息序列里面進(jìn)行選取,這樣就可以盡可能的利用用戶的歷史行為信息,代碼如下:



  • 第三步:我們?cè)讷@取的end_date之后便可以統(tǒng)計(jì)當(dāng)前end_date之后7天的用戶登錄APP的天數(shù),這樣便完成的標(biāo)簽的構(gòu)造

特征工程

在完成了數(shù)據(jù)的標(biāo)簽的構(gòu)造之后,我們就該開始考慮如何對(duì)這些數(shù)據(jù)進(jìn)行特征工程的構(gòu)建,由于標(biāo)簽的構(gòu)造和時(shí)間序列是強(qiáng)相關(guān)的,所以在特征工程方面我們也考慮對(duì)一些序列進(jìn)行操作,這里主要分為兩步

  • 第一步:對(duì)每個(gè)user獲取在end_date前31天的用戶和APP的交互序列,這里我們將用戶登錄APP并且launch_type=1的情況賦值為2,對(duì)用戶登錄APP并且launch_type=0的情況賦值為1,對(duì)用戶沒(méi)有登錄APP的情況賦值為0,這樣我們就得到了一個(gè)長(zhǎng)度為31的僅僅包括0,1,2的序列了

  • 第二步:我們對(duì)前面所得的用戶登錄序列統(tǒng)計(jì)在end_date前X天用戶和APP交互的天數(shù),從直觀上理解這個(gè)操作就是如果用戶在end_date前X天有很多天都登錄APP的話,那么他未來(lái)7天登錄APP的天數(shù)就會(huì)比較多,所以,我們考慮構(gòu)造用戶在end_date前X天的登錄情況,注意,這里的X的取值可以非常靈活,由于我們前面的序列長(zhǎng)度僅僅是31,所以這里的X的取值也盡可能把0-31都取一次,但是最好加上一些間隔,不然會(huì)有大量的冗余信息,代碼如下:


這樣便完成了特征工程的部分,這里一共構(gòu)建了8個(gè)時(shí)序特征。


完整baseline,在【學(xué)姐帶你玩AI】公眾號(hào),關(guān)鍵詞“愛(ài)奇藝”


模型訓(xùn)練

在完成標(biāo)簽構(gòu)造和簡(jiǎn)答你的特征工程之后,我們就要開始模型訓(xùn)練了,這里我們采用了5折交叉驗(yàn)證來(lái)進(jìn)行本次baseline的訓(xùn)練,其代碼如下:



模型結(jié)果&特征重要性

在訓(xùn)練結(jié)束之后可以使用Lightgbm自帶的接口來(lái)查看所使用的特征的重要程度,本次baseline的特征重要性程度結(jié)果如下:

從這個(gè)結(jié)果我們可以看出,這次最強(qiáng)的特征是end_date前31天的登陸天數(shù)

Baseline特點(diǎn)

  1. 此次baseline是為數(shù)不多非常易懂的baseline,更適合小白拿來(lái)入門

  2. 此次baseline的可擴(kuò)展性極強(qiáng),僅用了8個(gè)簡(jiǎn)單特征就達(dá)到了線下87+,線上84+

優(yōu)化方向

  • 對(duì)序列進(jìn)行更多的統(tǒng)計(jì)操作

  • 構(gòu)造更多的序列

  • 加入用戶相關(guān)的特征

完整baseline

關(guān)注【學(xué)姐帶你玩AI】公眾號(hào),關(guān)鍵詞“愛(ài)奇藝”



愛(ài)奇藝AI比賽:WSDM用戶留存預(yù)測(cè)挑戰(zhàn)賽Baseline的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
平陆县| 松阳县| 吉安县| 兴城市| 织金县| 黎城县| 沁源县| 班玛县| 广饶县| 酒泉市| 桐梓县| 渝中区| 武胜县| 柳州市| 宣城市| 班戈县| 扶沟县| 武川县| 高要市| 芜湖县| 海门市| 福清市| 桐乡市| 荣成市| 沽源县| 云龙县| 延寿县| 湘西| 都昌县| 永平县| 浮梁县| 会同县| 吉木萨尔县| 旺苍县| 象山县| 龙州县| 高唐县| 尼木县| 陈巴尔虎旗| 共和县| 林西县|