Kaggle-H&M個性化時尚推薦Baseline(多模態(tài))
來源:投稿 作者:peter
編輯:學姐
Peter老師
目前本科在讀,目前任香港某高校人工智能中心算法研究員,多次于業(yè)界頂尖公司、研究組實習,算法開發(fā)經(jīng)驗豐富。
賽題鏈接
https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations?

賽題描述
在這個比賽中,您將獲得客戶在一段時間內(nèi)的購買歷史,以及支持的元數(shù)據(jù)。 可用的元數(shù)據(jù)涵蓋從服裝類型和客戶年齡,到來自產(chǎn)品描述的文本數(shù)據(jù),再到服裝的圖像數(shù)據(jù)。您的任務是預測在訓練數(shù)據(jù)結束后的 7 天內(nèi)每個客戶將購買哪些商品。在此期間未進行任何購買的客戶不計入評分。
※ 比賽時間線
2022年2 月 2 日 年 - 比賽開始。
2022年 5 月 2 日 年 - 報名截止日期。 您必須在此日期之前接受比賽規(guī)則才能參加比賽。
2022年5 月 2 日 年 - 團隊合并截止日期。 這是參與者可以加入或合并團隊的最后一天。
2022年5 月 9 日 年 - 最終提交截止日期。
※ 豐厚的獎金
第一名:15,000美元
第二名:10,000美元
第三名:8,000美元
第四名:7,000美元
第五名:5,000美元
第六名:5,000美元
※ 推薦理由
多模態(tài)學習是近日數(shù)據(jù)科學領域較新也是較火熱的領域之一,內(nèi)卷程度低,容易出成果也能在業(yè)界落地。是近期加入數(shù)據(jù)科學領域選擇方向的不二之選。作為多模態(tài)比賽,你可以使用任何數(shù)據(jù)進行推斷,如果想研究分類數(shù)據(jù)類型算法,或者深入研究NLP和CV,這取決于你。
通過參加這場比賽,你能學到從推薦系統(tǒng)到cv、nlp多領域的知識,拿到獎牌對于各方向的求職也大有裨益。
數(shù)據(jù)描述

題目提供了三張表格和一組照片共四種數(shù)據(jù),數(shù)據(jù)詳情如下:
images - 每一個article_id的商品所對應的圖片
articles - 每一個article_id對應的商品具體的Metadata
customers - 每一個customer_id對應的顧客具體的Metadata
transactions_train - 歷史購買記錄
關注【學姐帶你玩AI】公眾號
后臺回復“HM”,進入本比賽交流群,
領取baseline
數(shù)據(jù)可視化
1. 商品元數(shù)據(jù)的種類

2. 商品的種類分布


3. 客戶相關的數(shù)據(jù)

4. 客戶年齡分布

5. 客戶對于新時尚的感知

6. 價格數(shù)據(jù)分布



評價指標
MAP@12:對于少于12次購物的客戶,做完整的12個預測沒有懲罰,所以對于每個客戶都進行12個預測較為有利。

Baseline構建
我們利用用戶不同年齡組之間的相關性進行相互預測,用戶年齡組購買情況相關性系數(shù)矩陣如下:

我們對數(shù)據(jù)的觀察:
最相似的兩個年齡組是 (49, 59] & (59, 69], 相關性系數(shù)0.68.
最不相關的兩個年齡組是 (-1, 19] & (69, 119], 相關性系數(shù) 0.09.
基于[EDA](https://www.kaggle.com/hechtjp/EDA-based-on-timeseries), (19, 29] 是最多人的年齡類別,和此類別最相關的年齡是, 系數(shù)為0.59.
各年齡段前100篇文章至少相差30%,把年齡類別分開預測會比統(tǒng)一預測更好
關注【學姐帶你玩AI】公眾號
后臺回復“HM”,進入本比賽交流群,
領取baseline
Baseline流程
使用基于規(guī)則的算法
對每個年齡組分別預測
預測代碼:
賽題難點思考
1、根據(jù)數(shù)據(jù)分析的結果進行更完善的特征工程
2、如何在預測中使用多種模態(tài)數(shù)據(jù)
關注【學姐帶你玩AI】公眾號
后臺回復“HM”,進入本比賽交流群,
領取baseline