Kaggle比賽蝦皮網(wǎng)商品匹配大賽多模態(tài)基線模型baseline
競(jìng)賽介紹
Shopee Price Match Guarantee比賽希望我們能夠從商品的圖片、標(biāo)題判斷哪些是同樣的商品
簡(jiǎn)單來講,像是如果我在蝦皮(xiapi.xiapibuy.com)上面搜尋「switch」這個(gè)詞會(huì)出以下頁面。

而可以看到上面其實(shí)有些是Switch主機(jī),有些是switch+健身環(huán),有些則是保護(hù)殼、收納袋之類的,這次的比賽就是希望能夠僅從「圖片+商品標(biāo)題」判斷出來哪些是同樣的商品,借此shopee能夠做出更精準(zhǔn)的商品推薦、比價(jià)、甚至可能可以做假貨分析(同樣商品價(jià)格落差太大)…等新功能
而實(shí)際data如下:

賽題任務(wù)分析
里面最重要的就是image、title、label_group這三個(gè)feature。
image : 這個(gè)商品的圖片名稱
title : 商品的標(biāo)題
label_group :商品的類別,也就是我們要預(yù)測(cè)的target(同一個(gè)類別可以有多個(gè)商品)
而image_phash就是一種基礎(chǔ)的圖片hashing方法(越相似的圖片hashing值會(huì)越接近),在這比賽中會(huì)是最最最基礎(chǔ)的baseline,但是因?yàn)榇蟛糠秩硕贾苯又爻閳D片F(xiàn)eature,所以image_phash等于廢掉。
而我們要預(yù)測(cè)的就是給定一個(gè)新的商品(一樣包含image、title),找出哪些商品跟他屬于一樣的類別。
這個(gè)比賽最困難的就是如何對(duì)image跟title抽取feature
下面是data中的一些圖片,可以看出圖片的拍攝方法、品質(zhì)可能差異極大,這也是其中一個(gè)對(duì)商品圖片分類困難點(diǎn)。

而這個(gè)比賽的Evaluation方法是F1 Score,因?yàn)槭菢?biāo)準(zhǔn)的衡量方法,這邊不贅述。
基于文本圖像的多模態(tài)商品匹配模型
3.1 導(dǎo)入包
3.2 加載數(shù)據(jù)
有些地方空格不是很明顯,大家在打代碼的時(shí)候注意空格哦!
3.3 基于Resnet18提取圖像特征
以下為提取商品圖片圖像特征的模塊
把每張圖片的圖像特征存儲(chǔ)起來
3.4 基于KNN算法構(gòu)建圖像匹配的候選結(jié)果
3.5 基于Tfidf向量與余弦相似度提取候選結(jié)果
3.6 合并圖像和文本的兩種結(jié)果
好了!今天的kaggle比賽的實(shí)戰(zhàn)案例就分享到這里,需要完整代碼的關(guān)注【學(xué)姐帶你玩AI】公眾號(hào),后臺(tái)回復(fù)“kaggle21”即可領(lǐng)取。
如果你想要組隊(duì)打比賽不知道如何開始
或者是學(xué)習(xí)研究上有什么困難
都可以來公眾號(hào)聯(lián)系學(xué)姐
↓↓↓


點(diǎn)贊轉(zhuǎn)發(fā)關(guān)注,給學(xué)姐點(diǎn)個(gè)贊叭!