0基礎(chǔ)入門kaggle比賽要知道它不止能拿獎(jiǎng)還能發(fā)論文!
來源:原創(chuàng) 作者:Frank老師&學(xué)姐
編輯:學(xué)姐
直播視頻回放
https://www.bilibili.com/video/BV1WS4y1x7CQ/
文末9.9購kaggle經(jīng)典往期賽活動(dòng)正在進(jìn)行中!不要錯(cuò)過?。?!
比賽的組織者
一般來說比賽一般兩都是由兩個(gè)組織者來舉辦的,要么是公司,要么是一些大學(xué)。
公司組織
那么如果從公司角度來說的話,舉辦比賽無非就是三個(gè)目的:
第一個(gè)就是他們
希望通過獎(jiǎng)金的方式來尋找業(yè)務(wù)痛點(diǎn)的解決方案。
一般來說的話是當(dāng)它們在自己的業(yè)務(wù)中發(fā)現(xiàn)了一個(gè)難以解決的問題,因?yàn)樗麄兊乃惴üこ處熆赡苣芰Σ惶?,所以他們就拿出一部分的?jiǎng)金來,希望在社會(huì)上通過打比賽的方式公開的去尋求解決方案。第二點(diǎn)就是說有的公司為了去
提升自己的影響力
,為了去能去參加某項(xiàng)業(yè)務(wù),比如說有的公司尤其是有一些非常大的云服務(wù)廠商,他們可能通過一些比賽的方式讓來去尋找到自己的一個(gè)業(yè)務(wù)合作方。第三點(diǎn)就是說像騰訊,包括阿里他們舉辦的比賽,
一般前10名的話都會(huì)給你設(shè)置特殊的一個(gè)招聘。
綠色通道的,一般來說的話,你如果在一個(gè)比賽中獲得前5名或者是前10名,要么你可以直接去參加他們的校招面試,不需要筆試,要么就是可以去直接過去實(shí)習(xí)。
學(xué)術(shù)界
對于一些學(xué)術(shù)界舉辦的比賽,我們大家非常熟悉的imangenet.coco
等。
斯坦福的李飛飛
老師在11年左右,大概10年開始就舉辦了imagenet的競賽,?從10年一直到18年19年截止。
我們熟知的比如說12年的Alexnet
,16年的restnet
,包括最近的18年的densenet
,就是這個(gè)imagenet比賽推動(dòng)了整個(gè)深度學(xué)習(xí)領(lǐng)域的一個(gè)發(fā)展。
包括后面的大家可能對目標(biāo)檢測領(lǐng)域的Coco數(shù)據(jù)集
比較熟悉的話, Coco其實(shí)就是Microsoft
舉辦的一個(gè)比賽里面推出來的一部分的數(shù)據(jù)集,在他們學(xué)術(shù)界推出,花這么多的人力物力去采集數(shù)據(jù)集,舉辦比賽目的是希望通過一些模型的突破來推動(dòng)我們這一個(gè)學(xué)科的影響力。
打比賽的好處
我們可以看一下右圖,kaggle第一名,有12,000美金。?下面是一個(gè)比賽的介紹,這是最近結(jié)束的一場比賽,由深度之眼組隊(duì)我們講解的kaggle腸胃分割比賽,第一名其實(shí)就是來自我們深度之眼的同學(xué)。

得的第一名的同學(xué)其實(shí)在深度之眼已經(jīng)參加了非常多的比賽了,從前年開始到今年不斷學(xué)習(xí)積累打到了一第一名。
這個(gè)隊(duì)伍中的另外一位同學(xué)他是一個(gè)大二的本科生,就是跟第一剛才我們提到的已經(jīng)工作同學(xué)合作,一起完成了我們剛剛結(jié)束的kaggle常規(guī)比賽的第一名,也獲得了接近1萬塊的獎(jiǎng)金。
而且如果是在比賽參加比賽的過程中得到優(yōu)秀人才的話,一般可以得到校招及實(shí)習(xí)的一個(gè)綠卡直通部門面試。?也有可能對申請博士的有非常大的幫助,尤其是參加剛才講學(xué)術(shù)界的數(shù)據(jù)集比賽。
比賽平臺有哪些
通常的比賽平臺我們就簡單分為4個(gè)
第一個(gè)就是
kaggle
這個(gè)平臺,這個(gè)平臺是世界級的。第二個(gè)平臺就是
天池
,天池主要是針對國內(nèi),而是阿里云舉辦的。第三個(gè)可能大家沒有聽說過它叫
codalab
,這個(gè)平臺主要是一些非常不錯(cuò)的會(huì)議,比如說cvpr,eccv,iccv。
舉例:
某些會(huì)議在開會(huì)期間要舉辦
Workshop
,里邊某一些大學(xué)的老師或者是一些公司拿出來數(shù)據(jù)集來去在workshop舉辦一個(gè)workshop的比賽,擴(kuò)大影響力。當(dāng)然對于這種workshop的比賽,他也可能會(huì)到kaggle或者是天池比賽平臺上舉辦。
在去年深度之眼,我參加帶的一個(gè)比賽是《小麥檢測和分類》,其實(shí)就是前年ecCV2020的一個(gè)workshop,當(dāng)時(shí)其實(shí)有兩位同學(xué)他的成績不是特別好,基本上可能是銀牌稍微往后。但是eccv上的workshop它基本上是可以投論文的,他們最后都把自己的一些
solution解法
寫成了paper,去投中了ecCV2020的workshop的paper。我們知道對于發(fā)論文來說的話,分為
full paper
;長paper
正常的是12~14頁的paper
,也有short paper
上的paper,可能就是某一些額外的像CIKM
或者是一些NLP的會(huì)
,它有short paper
。另外就是
workshop paper
, workshop paper主要又分為兩部分:
第一部分它其實(shí)來自于一些workshop舉辦的比賽,有的同學(xué)想去分享一下自己的solution,然后寫成了paper。
另外一個(gè)就是說我覺得我的這項(xiàng)工作可能目前來說還投不了cvpr但是我不想讓別人去搶占了,我這個(gè)idea他可能就是來占坑的,把自己的想法寫一寫,先投到一個(gè)workshop里面,后面再過幾個(gè)月等自己的整個(gè)想法完善了,再去投一個(gè)更好的會(huì)議。
這經(jīng)驗(yàn)總結(jié)是在前年深度之眼這邊也就是當(dāng)時(shí)帶的一個(gè)eccv的2020的論文比賽的一個(gè)積累,當(dāng)然那場比賽也有不少同學(xué)拿到了銀牌,我當(dāng)時(shí)是那一場比賽的助教。
第四個(gè)平臺
datafoundation
,是一個(gè)國內(nèi)非常小眾的一個(gè)平臺,但這個(gè)平臺承接著ccf。ccf
其實(shí)就是國內(nèi)的一個(gè)計(jì)算機(jī)組織,相當(dāng)于IEEE是美國的一個(gè)計(jì)算機(jī)組織,ccf平時(shí)也是舉辦非常多的比賽,一般都是放在datafoundation
這個(gè)平臺里邊的。
我們從哪里可以知曉比賽
首先我們第一個(gè)可以通過鏈接:https://aideadlin.es/?sub=ML,CV,CG,NLP,RO,SP,DM
,這個(gè)鏈接其實(shí)就是計(jì)算機(jī)各個(gè)會(huì)議期刊,比如說我們常知的cvpr,eccv,iccv
,還有一些NLP、ML、機(jī)器人等各種方向的會(huì)議。
一般來說在會(huì)議會(huì)有投稿截止日期,一般來說投稿截止之后的一個(gè)月
會(huì)議就會(huì)發(fā)布workshop
的比賽。?大家也可以這樣去關(guān)注一下,另外一個(gè)大家也可以關(guān)注一下【學(xué)姐帶你玩AI】的推送,公眾號會(huì)推送一些最近要舉辦的一些比賽的baseline。
通過比賽我們能得到什么
業(yè)務(wù)代碼基礎(chǔ)
大部分比賽其實(shí)就是公司拿出一部分錢來去讓大家去尋找solution
寫一些業(yè)務(wù)代碼。
這也就是說我們可以通過比賽去學(xué)習(xí)的一些工作技能,?這類比賽的內(nèi)容,其實(shí)就是我們以后要去做的一些業(yè)務(wù)方向的代碼,我們就可以順便就做一些業(yè)務(wù)方向代碼的儲(chǔ)備。?說白了就是我們通過比賽,去豐富我們的技能域,也為以后的更好的面試打下基礎(chǔ)。
科研論文
對于科研向的同學(xué)來說,我們可以看一下圖,就是我們20年帶的wd比賽-全球小麥檢測比賽
,這個(gè)比賽前面說到過它其實(shí)是ecCV2020的一個(gè)workshop比賽,這個(gè)比賽你看可以投paper,如果你想去寫paper的話,可以去把自己的想法寫成一篇論文來投出去。

workshop paper
其實(shí)相比于eccv的full paper
,它其實(shí)還是比較容易的,有這種機(jī)會(huì)的話大家一定要把握住。

上圖是在招聘的時(shí)候大家經(jīng)常看到的,一些公司去招聘算法工程師,他們一般會(huì)加上一句“有積極學(xué)習(xí)深度學(xué)習(xí)相關(guān)項(xiàng)目落地經(jīng)驗(yàn)”,這句話所需的能力大家可以去通過實(shí)習(xí)去獲得。
如何把一個(gè)項(xiàng)目落地,就是訓(xùn)好了模型,我怎么把模型放到一些端側(cè)的設(shè)備?一般我們在NVGPU
上訓(xùn)練,推理了后可能是要放在某些英特爾芯片
或者一些arm芯片
上。
上圖中后半部分就是說在kaggle上取得優(yōu)異成績者優(yōu)先,就是說如果你在kaggle取得了優(yōu)異的成績,一般來說的話就會(huì)鍛煉出解決問題的能力。kaggle成績這也是你簡歷里的某些inside。
這里我們重點(diǎn)介紹一下kaggle的晉升系統(tǒng)

對于kaggle系統(tǒng)來說的話,它其實(shí)有5個(gè)等級,你參加了第一場比賽提交之后,你的等級會(huì)晉升到contribute
;
如果你在kaggle里面拿到兩場比賽的一個(gè)銅牌
,你就是成為了kaggle expert
(kaggle專家),如果你在kaggle里面拿到了兩個(gè)銀牌加上一個(gè)金牌
,你的職稱title就是kaggle master
。
而如果你在kaggle比賽里邊拿到了5個(gè)金牌,并且你自己solo,沒有組隊(duì)去拿到一場比賽的金牌,那么你的稱號就成為kaggle grand master
。
據(jù)我了解你如果是kaggle grand master
,從比賽收益上來說的話,你至少已經(jīng)賺了有10萬美金。
kaggle GM
在大廠,比如說騰訊字節(jié),它其實(shí)都有特殊的招聘通道的,基本上你如果有能得到一個(gè)GM稱號的話,在騰訊年薪據(jù)我所知是不低于70萬的。
舉個(gè)例子:
上面講的得到第一名的那位同學(xué)和其他兩位深度之眼的同學(xué),他們之前也有好幾次銀牌的積累了,這次的腸胃分割比賽,他們拿到了一塊金牌,那么他們從kaggle expert晉級成為了kaggle master。
包括深度之眼腸胃比賽的那兩個(gè)小助教。一個(gè)小助教,他其實(shí)剛高考完,他其實(shí)有差不多10塊kaggle獎(jiǎng)牌了,基本都是銀牌為主銅牌為輔。另一個(gè)小助教,他是今天剛上大一,他也有兩塊kaggle銀牌了。
就是說:大家通過kaggle比賽,不只是能學(xué)到的一些通用的比賽技巧,也間接的為自己以后未來的一個(gè)升值之路打下一個(gè)基礎(chǔ)。
因?yàn)槟闳ス井吘故且ジ苫畹?,需要為公司盈利的?strong>Kaggle這種晉升的體系,你如果等級越高,就說明你解決問題的能力它其實(shí)是越強(qiáng)的。?當(dāng)然這個(gè)也是需要時(shí)間的積累的,我們剛才講到的腸胃分割比賽的第一名那個(gè)同學(xué),他其實(shí)在深度之眼比賽班學(xué)習(xí)不斷打比賽打了一年多了。?他電費(fèi)都花了好幾千塊,然后自己也買了3090。大家也可以把這個(gè)kaggle比賽當(dāng)成自己的一種愛好,不斷的去進(jìn)步。
如何入門kaggle
其實(shí)對于kaggle比賽來說的話,它其實(shí)不是非常的復(fù)雜。從我自身角度來說的話分為兩方面:
代碼能力
代碼能力方面主要分為兩部分:
第一部分就是
模式性learning
和deep learning框架
。我們以pytorch為主,大家一定要學(xué)會(huì)如何用pytorch進(jìn)行構(gòu)建數(shù)據(jù)模型,優(yōu)化器損失函數(shù)等。另外一個(gè)就是
各種各樣的Python包
,這無非就是Sklearn包
,pandas包
等,大家要具備如何去洗數(shù)據(jù)的能力。比如說再給你一批數(shù)據(jù),你如何去把這個(gè)數(shù)據(jù)去讀進(jìn)來,組織成我們這些框架需要的一些形式,也包括通過pandas數(shù)據(jù)分析工具,去分析一下數(shù)據(jù)的一些特點(diǎn)。
舉例
拿腸胃分割比賽來舉例,對于比賽來說的話,我們通過數(shù)據(jù)分析發(fā)現(xiàn),比賽的目的是要識別出一張切片里邊的一張CT圖片里面的大腸小腸和胃,這樣的話定位出這些器官來之后,那些醫(yī)生去發(fā)射X射線去殺細(xì)胞的時(shí)候,它其實(shí)就會(huì)避免去傷害到健康細(xì)胞。
因?yàn)槟阒牢覀內(nèi)プ霭┌Y化療的時(shí)候,其實(shí)是非常耗時(shí)的。一個(gè)病人,要花費(fèi)兩個(gè)小時(shí),大部分時(shí)間都要是醫(yī)生需要去避免我們這些射線去殺死健康細(xì)胞。
然后對于我們訓(xùn)練模型來說的話,我們發(fā)現(xiàn)其實(shí)有非常多的數(shù)據(jù)特點(diǎn),通過pandas或者是通過一些可視化的那些包解決。
我們發(fā)現(xiàn)比如說有的人他其實(shí)非常胖,有的人非常瘦,這就導(dǎo)致了有的人的切片CT出來的非常寬,有的人非常窄,因?yàn)槲覀兪且?xùn)練模型,我們一定要去讓模型考慮針對我們這個(gè)人的一個(gè)胖瘦的切數(shù)據(jù)的一個(gè)魯棒性,?我們可以比如說可能去做一些針對性的數(shù)據(jù)增強(qiáng)。
另外一個(gè)我們也可視化數(shù)據(jù),發(fā)現(xiàn)我們比賽提供的數(shù)據(jù),它其實(shí)就是一個(gè)時(shí)間序列的數(shù)據(jù),正常來說我們輸入到一個(gè)比如說計(jì)算機(jī)視覺類里邊,我們輸?shù)揭粋€(gè)模型里面,它是三通道的圖片,其實(shí)對于CT圖像來說的話,它其實(shí)就是一個(gè)通道的,我們普通來說拿過來的話,可能就是我們一個(gè)通道復(fù)制三份。
對于我們分析出來的可視化,發(fā)現(xiàn)它其實(shí)有個(gè)時(shí)序關(guān)系,?我們可以把這張切片的前一秒和后一秒一后一個(gè)時(shí)刻切片,當(dāng)成我們3G通道來輸入到,這樣的話就間接來提高了我們整個(gè)切片的一個(gè)魯棒性,這樣的話其實(shí)也是能提高我們模型學(xué)習(xí)參數(shù)的一個(gè)申報(bào)性的作用。
這就是我們?yōu)槭裁匆W(xué)習(xí)各種各樣的Python包去進(jìn)行數(shù)據(jù)分析的一個(gè)原因。
論文檢索學(xué)習(xí)能力
也拿常規(guī)分割比賽來舉例,當(dāng)我們發(fā)現(xiàn)了一些問題,我們就需要要看最新的那個(gè)分割論文,大家可能比較熟悉unit
,其實(shí)unit它其實(shí)就是6年前的論文了,它是16年發(fā)布的,最近的分割論文的SOTA
是什么?這就需要大家要學(xué)會(huì)怎么來去定位檢索相關(guān)的論文。

我給以Google scholar
為例的話,大家如果找到我就拿resnet
為例,你看這是resnet
它其實(shí)有12萬的引用,引用的意思就是說我resnet
這篇論文我掛到了Google school
了,掛到了arxiv
上,之后有非常多的改進(jìn)論文,這些改進(jìn)的論文到今天為止一共有127,408篇。你點(diǎn)開被引次數(shù),看一下2022年以來,針對resnet
的改進(jìn)有哪些論文。
論文它其實(shí)就是解決了某一個(gè)問題。
比如我們在拿resnet
為例,它其實(shí)解決的就是一個(gè)隨著網(wǎng)絡(luò)重塑加深,觀察到,到最后幾層的時(shí)候,我們梯度它就是傳不過去,相當(dāng)于我有100層到后面幾層的時(shí)候,學(xué)習(xí)到的feature
,就說明梯度已經(jīng)消失了。
觀察到這個(gè)現(xiàn)象之后,就想去解決這個(gè)問題,他就設(shè)計(jì)了一系列的殘差,來去引導(dǎo)我們披露的一個(gè)傳播,包括后面若干的一個(gè)改進(jìn)。
大家也看到直到2022年還有很多人去引用這個(gè)論文,當(dāng)然它不一定去改進(jìn)resnet
,它有可能是總結(jié)了一下resnet
干了什么事情,在他論文里面去提了一下resnet
。
另外一個(gè)就是說對于常規(guī)分割來說的話,我們在數(shù)據(jù)集里面也觀察到了,它其實(shí)也可以用3D模型的事項(xiàng)。
拿腸胃分割比賽來說,它提供的數(shù)據(jù)集是同一個(gè)病人在一天之內(nèi)的不同時(shí)刻去拍的CT圖像,那么我們可以自然而然的去想到,如果我把這些同一時(shí)刻的那些CT圖像我們疊起來,我們知道一張圖片的話,大家可以看到的時(shí)候它其實(shí)是一個(gè)寬高的,一張圖片我們形容一張圖片是h
和w
寬高。
那么有一個(gè)很最簡單的三維的話,就是我一個(gè)攝像相機(jī)去拍一張圖片的時(shí)候,其實(shí)有一個(gè)圖片距離一個(gè)相機(jī)的遠(yuǎn)近關(guān)系,這個(gè)遠(yuǎn)近關(guān)系我們可以設(shè)為一個(gè)depth
深度,那就是h
不只有hw
它還有個(gè)d
它這其實(shí)就是構(gòu)建一個(gè)最基本的3D
圖的數(shù)據(jù)集。
如果說我們把同一個(gè)病人在同一天內(nèi)不同時(shí)刻的圖片給疊加起來,那么是不是我們可以構(gòu)建出來是一個(gè)病人的3D的數(shù)據(jù)集。
當(dāng)然我們也要用若干的差值的方法,通過3D數(shù)據(jù)集我們再去做我們整個(gè)人體的一個(gè)分割的話,它其實(shí)能解決我們2d圖片上位置相關(guān)聯(lián)系的魯棒性。
比如說我們可以想象到一個(gè)人的一個(gè)腸胃,它其實(shí)并不是一個(gè)切片是直拉上去的,它可能是歪曲歪曲的,再來看我們的腸胃比賽的話,我們也可以把3d和我們前面講的就是同一個(gè)切片,不只是復(fù)制三份,我們改為前1:后1:00刻疊加,我們單寫成為2.5d通過這兩個(gè)數(shù)據(jù)來進(jìn)行設(shè)計(jì)模型,然后來融合結(jié)果的話,其實(shí)效果來說的話就是非常好的。
這就是我去想去跟大家講的另外一個(gè)點(diǎn)。檢索學(xué)習(xí)的檢索就是第一個(gè)就是代碼能力,通過各種Python包去發(fā)現(xiàn)這個(gè)問題。另外一個(gè)就是我們2.5d和3D首先這個(gè)模型是什么?2d3d的模型分割模型有什么?
我們就可以在google上去搜一下,3D Segmentation
有大家可以搜到一些3d分割的模型的信息。
另外一個(gè)就是我們再拿腸胃分割比賽來舉例,我們可以知道對于一張圖片來說的話,你可以想象到一個(gè)醫(yī)生在看一張圖片的時(shí)候,他其實(shí)是重視著這張圖片去看的,有時(shí)候你這個(gè)角度他其實(shí)并不能看到一些病變的位置。
大家去醫(yī)院的時(shí)候,可能發(fā)現(xiàn)有的醫(yī)生他可能喜歡把那個(gè)片子給翻轉(zhuǎn)一定的角度來看這個(gè)片子,這有一個(gè)叫multiview
多視角概念。我們自然而然的就可以想到可不可以通過多視角來提高我們預(yù)測的視角魯棒性。
我們就可以在google scholar
去搜一下multiview segmentation
的一些論文。搜到一些相關(guān)的發(fā)到非常不錯(cuò)會(huì)議上的相關(guān)論文呢,我們要去借鑒出來,用到我們這個(gè)比賽上。
通過以上例子可以得出:通過kaggle比賽確實(shí)邏輯思維能力和解決問題能力得到鍛煉和提升,一個(gè)比賽我們要設(shè)計(jì)的若干個(gè)解決方案,這樣能快速的去成長,就能學(xué)習(xí)到一些東西。參加比賽的一個(gè)目的就是不斷的去學(xué)習(xí),當(dāng)熟悉流程和方法之后了之后,才會(huì)在打比賽的時(shí)候有自己的想法。
9.9拼團(tuán)購?fù)谫愐?guī)則

參加此次活動(dòng)的往期賽

其他比賽資料
35場往期賽baseline:
https://deepshare.feishu.cn/docs/doccnnphtBQpRxE9NnMj8aQXhbM