如何真正從0到1打一場推薦系統(tǒng)賽事《入門版》
與報(bào)紙、雜志、電視、廣播這些傳統(tǒng)的傳播媒體廣告相比,新生的互聯(lián)網(wǎng)廣告擁有天然優(yōu)勢:它能夠追蹤、研究用戶的偏好,并在此基礎(chǔ)上進(jìn)行精準(zhǔn)廣告推薦和營銷。
CTR(Click-Through-Rate)即點(diǎn)擊通過率,是衡量互聯(lián)網(wǎng)廣告效果的一項(xiàng)重要指標(biāo)。這個(gè)問題是近幾年各大平臺(tái)研究的熱點(diǎn)。本文借助華為全球校園AI算法精英賽題——廣告-信息流跨域ctr預(yù)估,對(duì)該問題進(jìn)行研究。

實(shí)踐背景
賽題背景
廣告推薦主要基于用戶對(duì)廣告的歷史曝光、點(diǎn)擊等行為進(jìn)行建模,如果只是使用廣告域數(shù)據(jù),用戶行為數(shù)據(jù)稀疏,行為類型相對(duì)單一。而引入同一媒體的跨域數(shù)據(jù),可以獲得同一廣告用戶在其他域的行為數(shù)據(jù),深度挖掘用戶興趣,豐富用戶行為特征。引入其他媒體的廣告用戶行為數(shù)據(jù),也能豐富用戶和廣告特征。
賽題任務(wù)
本賽題基于廣告日志數(shù)據(jù),用戶基本信息和跨域數(shù)據(jù)優(yōu)化廣告ctr預(yù)估準(zhǔn)確率。目標(biāo)域?yàn)閺V告域,源域?yàn)樾畔⒘魍扑]域,通過獲取用戶在信息流域中曝光、點(diǎn)擊信息流等行為數(shù)據(jù),進(jìn)行用戶興趣建模,幫助廣告域ctr的精準(zhǔn)預(yù)估。
報(bào)名及數(shù)據(jù)下載
報(bào)名地址:
https://developer.huawei.com/consumer/cn/activity/digixActivity/digixdetail/101655281685926449?ha_source=dw&ha_sourceId=89000243
數(shù)據(jù)下載:(沒有參賽過的同學(xué)參考)
https://xj15uxcopw.feishu.cn/docx/doxcnufyNTvUfpU57sRyydgyK6

實(shí)踐思路
本次比賽是一個(gè)經(jīng)典點(diǎn)擊率預(yù)估(CTR)的數(shù)據(jù)挖掘賽,任務(wù)是構(gòu)建一種模型,根據(jù)用戶的測試數(shù)據(jù)來預(yù)測這個(gè)用戶是否點(diǎn)擊廣告。這是典型的二分類問題,模型的預(yù)測輸出為 0 或 1 (點(diǎn)擊:1,未點(diǎn)擊:0)
機(jī)器學(xué)習(xí)中,關(guān)于分類任務(wù)我們一般會(huì)想到邏輯回歸、決策樹等算法,在本文實(shí)踐代碼中,我們嘗試使用邏輯回歸來構(gòu)建我們的模型。我們在解決機(jī)器學(xué)習(xí)問題時(shí),一般會(huì)遵循以下流程:

實(shí)踐代碼
需要內(nèi)存:1GB
運(yùn)行時(shí)間:5分鐘
實(shí)踐提升
我們完成了廣告信息流跨域ctr預(yù)估實(shí)踐的baseline任務(wù),接下來可以從以下幾個(gè)方向思考:
繼續(xù)嘗試不同的預(yù)測模型或特征工程來提升模型預(yù)測的準(zhǔn)確度
嘗試模型融合等策略
查閱廣告信息流跨域ctr預(yù)估預(yù)測相關(guān)資料,獲取其他模型構(gòu)建方法
參與內(nèi)測
本文為Datawhale項(xiàng)目實(shí)踐2.0教程,如果你也是在校生,還在入門階段,可以進(jìn)內(nèi)測學(xué)習(xí)群,我們在學(xué)習(xí)反饋中一起優(yōu)化教程。


點(diǎn)贊過100好像有點(diǎn)困難...
點(diǎn)贊過80,更新推薦系統(tǒng)競賽《進(jìn)階版》