手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 0基礎(chǔ)入門kaggle比賽要知道它不止能拿獎(jiǎng)還能發(fā)論文！

0基礎(chǔ)入門kaggle比賽要知道它不止能拿獎(jiǎng)還能發(fā)論文！

2022-08-16 17:32 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：原創(chuàng) 作者：Frank老師&學(xué)姐
編輯：學(xué)姐

直播視頻回放

https://www.bilibili.com/video/BV1WS4y1x7CQ/

文末9.9購kaggle經(jīng)典往期賽活動(dòng)正在進(jìn)行中！不要錯(cuò)過?。?！

比賽的組織者

一般來說比賽一般兩都是由兩個(gè)組織者來舉辦的，要么是公司，要么是一些大學(xué)。

公司組織

那么如果從公司角度來說的話，舉辦比賽無非就是三個(gè)目的：

第一個(gè)就是他們希望通過獎(jiǎng)金的方式來尋找業(yè)務(wù)痛點(diǎn)的解決方案。一般來說的話是當(dāng)它們在自己的業(yè)務(wù)中發(fā)現(xiàn)了一個(gè)難以解決的問題，因?yàn)樗麄兊乃惴üこ處熆赡苣芰Σ惶?，所以他們就拿出一部分的?jiǎng)金來，希望在社會(huì)上通過打比賽的方式公開的去尋求解決方案。
第二點(diǎn)就是說有的公司為了去提升自己的影響力，為了去能去參加某項(xiàng)業(yè)務(wù)，比如說有的公司尤其是有一些非常大的云服務(wù)廠商，他們可能通過一些比賽的方式讓來去尋找到自己的一個(gè)業(yè)務(wù)合作方。
第三點(diǎn)就是說像騰訊，包括阿里他們舉辦的比賽，一般前10名的話都會(huì)給你設(shè)置特殊的一個(gè)招聘。綠色通道的，一般來說的話，你如果在一個(gè)比賽中獲得前5名或者是前10名，要么你可以直接去參加他們的校招面試，不需要筆試，要么就是可以去直接過去實(shí)習(xí)。

學(xué)術(shù)界

對于一些學(xué)術(shù)界舉辦的比賽，我們大家非常熟悉的imangenet.coco等。

斯坦福的李飛飛老師在11年左右，大概10年開始就舉辦了imagenet的競賽，?從10年一直到18年19年截止。

我們熟知的比如說12年的Alexnet，16年的restnet，包括最近的18年的densenet，就是這個(gè)imagenet比賽推動(dòng)了整個(gè)深度學(xué)習(xí)領(lǐng)域的一個(gè)發(fā)展。

包括后面的大家可能對目標(biāo)檢測領(lǐng)域的Coco數(shù)據(jù)集比較熟悉的話， Coco其實(shí)就是Microsoft舉辦的一個(gè)比賽里面推出來的一部分的數(shù)據(jù)集，在他們學(xué)術(shù)界推出，花這么多的人力物力去采集數(shù)據(jù)集，舉辦比賽目的是希望通過一些模型的突破來推動(dòng)我們這一個(gè)學(xué)科的影響力。

打比賽的好處

我們可以看一下右圖，kaggle第一名，有12,000美金。?下面是一個(gè)比賽的介紹，這是最近結(jié)束的一場比賽，由深度之眼組隊(duì)我們講解的kaggle腸胃分割比賽，第一名其實(shí)就是來自我們深度之眼的同學(xué)。

得的第一名的同學(xué)其實(shí)在深度之眼已經(jīng)參加了非常多的比賽了，從前年開始到今年不斷學(xué)習(xí)積累打到了一第一名。

這個(gè)隊(duì)伍中的另外一位同學(xué)他是一個(gè)大二的本科生，就是跟第一剛才我們提到的已經(jīng)工作同學(xué)合作，一起完成了我們剛剛結(jié)束的kaggle常規(guī)比賽的第一名，也獲得了接近1萬塊的獎(jiǎng)金。

而且如果是在比賽參加比賽的過程中得到優(yōu)秀人才的話，一般可以得到校招及實(shí)習(xí)的一個(gè)綠卡直通部門面試。?也有可能對申請博士的有非常大的幫助，尤其是參加剛才講學(xué)術(shù)界的數(shù)據(jù)集比賽。

比賽平臺有哪些

通常的比賽平臺我們就簡單分為4個(gè)

第一個(gè)就是kaggle這個(gè)平臺，這個(gè)平臺是世界級的。
第二個(gè)平臺就是天池，天池主要是針對國內(nèi)，而是阿里云舉辦的。
第三個(gè)可能大家沒有聽說過它叫codalab，這個(gè)平臺主要是一些非常不錯(cuò)的會(huì)議，比如說cvpr，eccv，iccv。

舉例：

某些會(huì)議在開會(huì)期間要舉辦Workshop，里邊某一些大學(xué)的老師或者是一些公司拿出來數(shù)據(jù)集來去在workshop舉辦一個(gè)workshop的比賽，擴(kuò)大影響力。

當(dāng)然對于這種workshop的比賽，他也可能會(huì)到kaggle或者是天池比賽平臺上舉辦。

在去年深度之眼，我參加帶的一個(gè)比賽是《小麥檢測和分類》，其實(shí)就是前年ecCV2020的一個(gè)workshop，當(dāng)時(shí)其實(shí)有兩位同學(xué)他的成績不是特別好，基本上可能是銀牌稍微往后。但是eccv上的workshop它基本上是可以投論文的，他們最后都把自己的一些solution解法寫成了paper，去投中了ecCV2020的workshop的paper。

我們知道對于發(fā)論文來說的話，分為full paper；長paper正常的是12~14頁的paper，也有short paper上的paper，可能就是某一些額外的像CIKM或者是一些NLP的會(huì)，它有short paper。

另外就是workshop paper， workshop paper主要又分為兩部分：

第一部分它其實(shí)來自于一些workshop舉辦的比賽，有的同學(xué)想去分享一下自己的solution，然后寫成了paper。

另外一個(gè)就是說我覺得我的這項(xiàng)工作可能目前來說還投不了cvpr但是我不想讓別人去搶占了，我這個(gè)idea他可能就是來占坑的，把自己的想法寫一寫，先投到一個(gè)workshop里面，后面再過幾個(gè)月等自己的整個(gè)想法完善了，再去投一個(gè)更好的會(huì)議。

這經(jīng)驗(yàn)總結(jié)是在前年深度之眼這邊也就是當(dāng)時(shí)帶的一個(gè)eccv的2020的論文比賽的一個(gè)積累，當(dāng)然那場比賽也有不少同學(xué)拿到了銀牌，我當(dāng)時(shí)是那一場比賽的助教。

第四個(gè)平臺datafoundation，是一個(gè)國內(nèi)非常小眾的一個(gè)平臺，但這個(gè)平臺承接著ccf。ccf其實(shí)就是國內(nèi)的一個(gè)計(jì)算機(jī)組織，相當(dāng)于IEEE是美國的一個(gè)計(jì)算機(jī)組織，ccf平時(shí)也是舉辦非常多的比賽，一般都是放在datafoundation這個(gè)平臺里邊的。

我們從哪里可以知曉比賽

首先我們第一個(gè)可以通過鏈接：https://aideadlin.es/?sub=ML,CV,CG,NLP,RO,SP,DM，這個(gè)鏈接其實(shí)就是計(jì)算機(jī)各個(gè)會(huì)議期刊，比如說我們常知的cvpr，eccv，iccv，還有一些NLP、ML、機(jī)器人等各種方向的會(huì)議。

一般來說在會(huì)議會(huì)有投稿截止日期，一般來說投稿截止之后的一個(gè)月會(huì)議就會(huì)發(fā)布workshop的比賽。?大家也可以這樣去關(guān)注一下，另外一個(gè)大家也可以關(guān)注一下【學(xué)姐帶你玩AI】的推送，公眾號會(huì)推送一些最近要舉辦的一些比賽的baseline。

通過比賽我們能得到什么

業(yè)務(wù)代碼基礎(chǔ)

大部分比賽其實(shí)就是公司拿出一部分錢來去讓大家去尋找solution寫一些業(yè)務(wù)代碼。

這也就是說我們可以通過比賽去學(xué)習(xí)的一些工作技能，?這類比賽的內(nèi)容，其實(shí)就是我們以后要去做的一些業(yè)務(wù)方向的代碼，我們就可以順便就做一些業(yè)務(wù)方向代碼的儲(chǔ)備。?說白了就是我們通過比賽，去豐富我們的技能域，也為以后的更好的面試打下基礎(chǔ)。

科研論文

對于科研向的同學(xué)來說，我們可以看一下圖，就是我們20年帶的wd比賽-全球小麥檢測比賽，這個(gè)比賽前面說到過它其實(shí)是ecCV2020的一個(gè)workshop比賽，這個(gè)比賽你看可以投paper，如果你想去寫paper的話，可以去把自己的想法寫成一篇論文來投出去。

workshop paper其實(shí)相比于eccv的full paper，它其實(shí)還是比較容易的，有這種機(jī)會(huì)的話大家一定要把握住。

上圖是在招聘的時(shí)候大家經(jīng)常看到的，一些公司去招聘算法工程師，他們一般會(huì)加上一句“有積極學(xué)習(xí)深度學(xué)習(xí)相關(guān)項(xiàng)目落地經(jīng)驗(yàn)”，這句話所需的能力大家可以去通過實(shí)習(xí)去獲得。

如何把一個(gè)項(xiàng)目落地，就是訓(xùn)好了模型，我怎么把模型放到一些端側(cè)的設(shè)備？一般我們在NVGPU上訓(xùn)練，推理了后可能是要放在某些英特爾芯片或者一些arm芯片上。

上圖中后半部分就是說在kaggle上取得優(yōu)異成績者優(yōu)先，就是說如果你在kaggle取得了優(yōu)異的成績，一般來說的話就會(huì)鍛煉出解決問題的能力。kaggle成績這也是你簡歷里的某些inside。

這里我們重點(diǎn)介紹一下kaggle的晉升系統(tǒng)

對于kaggle系統(tǒng)來說的話，它其實(shí)有5個(gè)等級，你參加了第一場比賽提交之后，你的等級會(huì)晉升到contribute；

如果你在kaggle里面拿到兩場比賽的一個(gè)銅牌，你就是成為了kaggle expert（kaggle專家），如果你在kaggle里面拿到了兩個(gè)銀牌加上一個(gè)金牌，你的職稱title就是kaggle master。

而如果你在kaggle比賽里邊拿到了5個(gè)金牌，并且你自己solo，沒有組隊(duì)去拿到一場比賽的金牌，那么你的稱號就成為kaggle grand master。

據(jù)我了解你如果是kaggle grand master，從比賽收益上來說的話，你至少已經(jīng)賺了有10萬美金。

kaggle GM在大廠，比如說騰訊字節(jié)，它其實(shí)都有特殊的招聘通道的，基本上你如果有能得到一個(gè)GM稱號的話，在騰訊年薪據(jù)我所知是不低于70萬的。

舉個(gè)例子：
上面講的得到第一名的那位同學(xué)和其他兩位深度之眼的同學(xué)，他們之前也有好幾次銀牌的積累了，這次的腸胃分割比賽，他們拿到了一塊金牌，那么他們從kaggle expert晉級成為了kaggle master。

包括深度之眼腸胃比賽的那兩個(gè)小助教。一個(gè)小助教，他其實(shí)剛高考完，他其實(shí)有差不多10塊kaggle獎(jiǎng)牌了，基本都是銀牌為主銅牌為輔。另一個(gè)小助教，他是今天剛上大一，他也有兩塊kaggle銀牌了。

就是說：大家通過kaggle比賽，不只是能學(xué)到的一些通用的比賽技巧，也間接的為自己以后未來的一個(gè)升值之路打下一個(gè)基礎(chǔ)。

因?yàn)槟闳ス井吘故且ジ苫畹?，需要為公司盈利的?strong>Kaggle這種晉升的體系，你如果等級越高，就說明你解決問題的能力它其實(shí)是越強(qiáng)的。?當(dāng)然這個(gè)也是需要時(shí)間的積累的，我們剛才講到的腸胃分割比賽的第一名那個(gè)同學(xué)，他其實(shí)在深度之眼比賽班學(xué)習(xí)不斷打比賽打了一年多了。?他電費(fèi)都花了好幾千塊，然后自己也買了3090。大家也可以把這個(gè)kaggle比賽當(dāng)成自己的一種愛好，不斷的去進(jìn)步。

如何入門kaggle

其實(shí)對于kaggle比賽來說的話，它其實(shí)不是非常的復(fù)雜。從我自身角度來說的話分為兩方面：

代碼能力

代碼能力方面主要分為兩部分：

第一部分就是模式性learning和deep learning框架。我們以pytorch為主，大家一定要學(xué)會(huì)如何用pytorch進(jìn)行構(gòu)建數(shù)據(jù)模型，優(yōu)化器損失函數(shù)等。
另外一個(gè)就是各種各樣的Python包，這無非就是Sklearn包，pandas包等，大家要具備如何去洗數(shù)據(jù)的能力。

比如說再給你一批數(shù)據(jù)，你如何去把這個(gè)數(shù)據(jù)去讀進(jìn)來，組織成我們這些框架需要的一些形式，也包括通過pandas數(shù)據(jù)分析工具，去分析一下數(shù)據(jù)的一些特點(diǎn)。

舉例
拿腸胃分割比賽來舉例，對于比賽來說的話，我們通過數(shù)據(jù)分析發(fā)現(xiàn)，比賽的目的是要識別出一張切片里邊的一張CT圖片里面的大腸小腸和胃，這樣的話定位出這些器官來之后，那些醫(yī)生去發(fā)射X射線去殺細(xì)胞的時(shí)候，它其實(shí)就會(huì)避免去傷害到健康細(xì)胞。

因?yàn)槟阒牢覀內(nèi)プ霭┌Y化療的時(shí)候，其實(shí)是非常耗時(shí)的。一個(gè)病人，要花費(fèi)兩個(gè)小時(shí)，大部分時(shí)間都要是醫(yī)生需要去避免我們這些射線去殺死健康細(xì)胞。

然后對于我們訓(xùn)練模型來說的話，我們發(fā)現(xiàn)其實(shí)有非常多的數(shù)據(jù)特點(diǎn)，通過pandas或者是通過一些可視化的那些包解決。

我們發(fā)現(xiàn)比如說有的人他其實(shí)非常胖，有的人非常瘦，這就導(dǎo)致了有的人的切片CT出來的非常寬，有的人非常窄，因?yàn)槲覀兪且?xùn)練模型，我們一定要去讓模型考慮針對我們這個(gè)人的一個(gè)胖瘦的切數(shù)據(jù)的一個(gè)魯棒性，?我們可以比如說可能去做一些針對性的數(shù)據(jù)增強(qiáng)。

另外一個(gè)我們也可視化數(shù)據(jù)，發(fā)現(xiàn)我們比賽提供的數(shù)據(jù)，它其實(shí)就是一個(gè)時(shí)間序列的數(shù)據(jù)，正常來說我們輸入到一個(gè)比如說計(jì)算機(jī)視覺類里邊，我們輸?shù)揭粋€(gè)模型里面，它是三通道的圖片，其實(shí)對于CT圖像來說的話，它其實(shí)就是一個(gè)通道的，我們普通來說拿過來的話，可能就是我們一個(gè)通道復(fù)制三份。

對于我們分析出來的可視化，發(fā)現(xiàn)它其實(shí)有個(gè)時(shí)序關(guān)系，?我們可以把這張切片的前一秒和后一秒一后一個(gè)時(shí)刻切片，當(dāng)成我們3G通道來輸入到，這樣的話就間接來提高了我們整個(gè)切片的一個(gè)魯棒性，這樣的話其實(shí)也是能提高我們模型學(xué)習(xí)參數(shù)的一個(gè)申報(bào)性的作用。

這就是我們?yōu)槭裁匆W(xué)習(xí)各種各樣的Python包去進(jìn)行數(shù)據(jù)分析的一個(gè)原因。

論文檢索學(xué)習(xí)能力

也拿常規(guī)分割比賽來舉例，當(dāng)我們發(fā)現(xiàn)了一些問題，我們就需要要看最新的那個(gè)分割論文，大家可能比較熟悉unit，其實(shí)unit它其實(shí)就是6年前的論文了，它是16年發(fā)布的，最近的分割論文的SOTA是什么？這就需要大家要學(xué)會(huì)怎么來去定位檢索相關(guān)的論文。

我給以Google scholar為例的話，大家如果找到我就拿resnet為例，你看這是resnet它其實(shí)有12萬的引用，引用的意思就是說我resnet這篇論文我掛到了Google school了，掛到了arxiv上，之后有非常多的改進(jìn)論文，這些改進(jìn)的論文到今天為止一共有127,408篇。你點(diǎn)開被引次數(shù)，看一下2022年以來，針對resnet的改進(jìn)有哪些論文。

論文它其實(shí)就是解決了某一個(gè)問題。

比如我們在拿resnet為例，它其實(shí)解決的就是一個(gè)隨著網(wǎng)絡(luò)重塑加深，觀察到，到最后幾層的時(shí)候，我們梯度它就是傳不過去，相當(dāng)于我有100層到后面幾層的時(shí)候，學(xué)習(xí)到的feature，就說明梯度已經(jīng)消失了。

觀察到這個(gè)現(xiàn)象之后，就想去解決這個(gè)問題，他就設(shè)計(jì)了一系列的殘差，來去引導(dǎo)我們披露的一個(gè)傳播，包括后面若干的一個(gè)改進(jìn)。

大家也看到直到2022年還有很多人去引用這個(gè)論文，當(dāng)然它不一定去改進(jìn)resnet，它有可能是總結(jié)了一下resnet干了什么事情，在他論文里面去提了一下resnet。

另外一個(gè)就是說對于常規(guī)分割來說的話，我們在數(shù)據(jù)集里面也觀察到了，它其實(shí)也可以用3D模型的事項(xiàng)。

拿腸胃分割比賽來說，它提供的數(shù)據(jù)集是同一個(gè)病人在一天之內(nèi)的不同時(shí)刻去拍的CT圖像，那么我們可以自然而然的去想到，如果我把這些同一時(shí)刻的那些CT圖像我們疊起來，我們知道一張圖片的話，大家可以看到的時(shí)候它其實(shí)是一個(gè)寬高的，一張圖片我們形容一張圖片是h和w寬高。

那么有一個(gè)很最簡單的三維的話，就是我一個(gè)攝像相機(jī)去拍一張圖片的時(shí)候，其實(shí)有一個(gè)圖片距離一個(gè)相機(jī)的遠(yuǎn)近關(guān)系，這個(gè)遠(yuǎn)近關(guān)系我們可以設(shè)為一個(gè)depth深度，那就是h不只有hw它還有個(gè)d它這其實(shí)就是構(gòu)建一個(gè)最基本的3D圖的數(shù)據(jù)集。

如果說我們把同一個(gè)病人在同一天內(nèi)不同時(shí)刻的圖片給疊加起來，那么是不是我們可以構(gòu)建出來是一個(gè)病人的3D的數(shù)據(jù)集。

當(dāng)然我們也要用若干的差值的方法，通過3D數(shù)據(jù)集我們再去做我們整個(gè)人體的一個(gè)分割的話，它其實(shí)能解決我們2d圖片上位置相關(guān)聯(lián)系的魯棒性。

比如說我們可以想象到一個(gè)人的一個(gè)腸胃，它其實(shí)并不是一個(gè)切片是直拉上去的，它可能是歪曲歪曲的，再來看我們的腸胃比賽的話，我們也可以把3d和我們前面講的就是同一個(gè)切片，不只是復(fù)制三份，我們改為前1:后1:00刻疊加，我們單寫成為2.5d通過這兩個(gè)數(shù)據(jù)來進(jìn)行設(shè)計(jì)模型，然后來融合結(jié)果的話，其實(shí)效果來說的話就是非常好的。

這就是我去想去跟大家講的另外一個(gè)點(diǎn)。檢索學(xué)習(xí)的檢索就是第一個(gè)就是代碼能力，通過各種Python包去發(fā)現(xiàn)這個(gè)問題。另外一個(gè)就是我們2.5d和3D首先這個(gè)模型是什么？2d3d的模型分割模型有什么？

我們就可以在google上去搜一下,3D Segmentation有大家可以搜到一些3d分割的模型的信息。

另外一個(gè)就是我們再拿腸胃分割比賽來舉例，我們可以知道對于一張圖片來說的話，你可以想象到一個(gè)醫(yī)生在看一張圖片的時(shí)候，他其實(shí)是重視著這張圖片去看的，有時(shí)候你這個(gè)角度他其實(shí)并不能看到一些病變的位置。

大家去醫(yī)院的時(shí)候，可能發(fā)現(xiàn)有的醫(yī)生他可能喜歡把那個(gè)片子給翻轉(zhuǎn)一定的角度來看這個(gè)片子，這有一個(gè)叫multiview多視角概念。我們自然而然的就可以想到可不可以通過多視角來提高我們預(yù)測的視角魯棒性。

我們就可以在google scholar去搜一下multiview segmentation的一些論文。搜到一些相關(guān)的發(fā)到非常不錯(cuò)會(huì)議上的相關(guān)論文呢，我們要去借鑒出來，用到我們這個(gè)比賽上。

通過以上例子可以得出：通過kaggle比賽確實(shí)邏輯思維能力和解決問題能力得到鍛煉和提升，一個(gè)比賽我們要設(shè)計(jì)的若干個(gè)解決方案，這樣能快速的去成長，就能學(xué)習(xí)到一些東西。參加比賽的一個(gè)目的就是不斷的去學(xué)習(xí)，當(dāng)熟悉流程和方法之后了之后，才會(huì)在打比賽的時(shí)候有自己的想法。

9.9拼團(tuán)購?fù)谫愐?guī)則

參加此次活動(dòng)的往期賽

其他比賽資料

35場往期賽baseline：

https://deepshare.feishu.cn/docs/doccnnphtBQpRxE9NnMj8aQXhbM

標(biāo)簽：