最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

0基礎(chǔ)入門kaggle比賽要知道它不止能拿獎(jiǎng)還能發(fā)論文!

2022-08-16 17:32 作者:深度之眼官方賬號  | 我要投稿

來源:原創(chuàng) 作者:Frank老師&學(xué)姐

編輯:學(xué)姐

直播視頻回放

https://www.bilibili.com/video/BV1WS4y1x7CQ/

文末9.9購kaggle經(jīng)典往期賽活動(dòng)正在進(jìn)行中!不要錯(cuò)過?。?!

比賽的組織者

一般來說比賽一般兩都是由兩個(gè)組織者來舉辦的,要么是公司,要么是一些大學(xué)。

公司組織

那么如果從公司角度來說的話,舉辦比賽無非就是三個(gè)目的:

  • 第一個(gè)就是他們希望通過獎(jiǎng)金的方式來尋找業(yè)務(wù)痛點(diǎn)的解決方案。一般來說的話是當(dāng)它們在自己的業(yè)務(wù)中發(fā)現(xiàn)了一個(gè)難以解決的問題,因?yàn)樗麄兊乃惴üこ處熆赡苣芰Σ惶?,所以他們就拿出一部分的?jiǎng)金來,希望在社會(huì)上通過打比賽的方式公開的去尋求解決方案。

  • 第二點(diǎn)就是說有的公司為了去提升自己的影響力,為了去能去參加某項(xiàng)業(yè)務(wù),比如說有的公司尤其是有一些非常大的云服務(wù)廠商,他們可能通過一些比賽的方式讓來去尋找到自己的一個(gè)業(yè)務(wù)合作方。

  • 第三點(diǎn)就是說像騰訊,包括阿里他們舉辦的比賽,一般前10名的話都會(huì)給你設(shè)置特殊的一個(gè)招聘。綠色通道的,一般來說的話,你如果在一個(gè)比賽中獲得前5名或者是前10名,要么你可以直接去參加他們的校招面試,不需要筆試,要么就是可以去直接過去實(shí)習(xí)。

學(xué)術(shù)界

對于一些學(xué)術(shù)界舉辦的比賽,我們大家非常熟悉的imangenet.coco等。

斯坦福的李飛飛老師在11年左右,大概10年開始就舉辦了imagenet的競賽,?從10年一直到18年19年截止。

我們熟知的比如說12年的Alexnet,16年的restnet,包括最近的18年的densenet,就是這個(gè)imagenet比賽推動(dòng)了整個(gè)深度學(xué)習(xí)領(lǐng)域的一個(gè)發(fā)展。

包括后面的大家可能對目標(biāo)檢測領(lǐng)域的Coco數(shù)據(jù)集比較熟悉的話, Coco其實(shí)就是Microsoft舉辦的一個(gè)比賽里面推出來的一部分的數(shù)據(jù)集,在他們學(xué)術(shù)界推出,花這么多的人力物力去采集數(shù)據(jù)集,舉辦比賽目的是希望通過一些模型的突破來推動(dòng)我們這一個(gè)學(xué)科的影響力。

打比賽的好處

我們可以看一下右圖,kaggle第一名,有12,000美金。?下面是一個(gè)比賽的介紹,這是最近結(jié)束的一場比賽,由深度之眼組隊(duì)我們講解的kaggle腸胃分割比賽,第一名其實(shí)就是來自我們深度之眼的同學(xué)。

得的第一名的同學(xué)其實(shí)在深度之眼已經(jīng)參加了非常多的比賽了,從前年開始到今年不斷學(xué)習(xí)積累打到了一第一名。

這個(gè)隊(duì)伍中的另外一位同學(xué)他是一個(gè)大二的本科生,就是跟第一剛才我們提到的已經(jīng)工作同學(xué)合作,一起完成了我們剛剛結(jié)束的kaggle常規(guī)比賽的第一名,也獲得了接近1萬塊的獎(jiǎng)金。

而且如果是在比賽參加比賽的過程中得到優(yōu)秀人才的話,一般可以得到校招及實(shí)習(xí)的一個(gè)綠卡直通部門面試。?也有可能對申請博士的有非常大的幫助,尤其是參加剛才講學(xué)術(shù)界的數(shù)據(jù)集比賽。

比賽平臺有哪些

通常的比賽平臺我們就簡單分為4個(gè)

  • 第一個(gè)就是kaggle這個(gè)平臺,這個(gè)平臺是世界級的。

  • 第二個(gè)平臺就是天池,天池主要是針對國內(nèi),而是阿里云舉辦的。

  • 第三個(gè)可能大家沒有聽說過它叫codalab,這個(gè)平臺主要是一些非常不錯(cuò)的會(huì)議,比如說cvpr,eccv,iccv。

舉例:

某些會(huì)議在開會(huì)期間要舉辦Workshop,里邊某一些大學(xué)的老師或者是一些公司拿出來數(shù)據(jù)集來去在workshop舉辦一個(gè)workshop的比賽,擴(kuò)大影響力。

當(dāng)然對于這種workshop的比賽,他也可能會(huì)到kaggle或者是天池比賽平臺上舉辦。

在去年深度之眼,我參加帶的一個(gè)比賽是《小麥檢測和分類》,其實(shí)就是前年ecCV2020的一個(gè)workshop,當(dāng)時(shí)其實(shí)有兩位同學(xué)他的成績不是特別好,基本上可能是銀牌稍微往后。但是eccv上的workshop它基本上是可以投論文的,他們最后都把自己的一些solution解法寫成了paper,去投中了ecCV2020的workshop的paper。

我們知道對于發(fā)論文來說的話,分為full paper;長paper正常的是12~14頁的paper,也有short paper上的paper,可能就是某一些額外的像CIKM或者是一些NLP的會(huì),它有short paper

另外就是workshop paper, workshop paper主要又分為兩部分:

  • 第一部分它其實(shí)來自于一些workshop舉辦的比賽,有的同學(xué)想去分享一下自己的solution,然后寫成了paper。

  • 另外一個(gè)就是說我覺得我的這項(xiàng)工作可能目前來說還投不了cvpr但是我不想讓別人去搶占了,我這個(gè)idea他可能就是來占坑的,把自己的想法寫一寫,先投到一個(gè)workshop里面,后面再過幾個(gè)月等自己的整個(gè)想法完善了,再去投一個(gè)更好的會(huì)議。

這經(jīng)驗(yàn)總結(jié)是在前年深度之眼這邊也就是當(dāng)時(shí)帶的一個(gè)eccv的2020的論文比賽的一個(gè)積累,當(dāng)然那場比賽也有不少同學(xué)拿到了銀牌,我當(dāng)時(shí)是那一場比賽的助教。

  • 第四個(gè)平臺datafoundation,是一個(gè)國內(nèi)非常小眾的一個(gè)平臺,但這個(gè)平臺承接著ccf。ccf其實(shí)就是國內(nèi)的一個(gè)計(jì)算機(jī)組織,相當(dāng)于IEEE是美國的一個(gè)計(jì)算機(jī)組織,ccf平時(shí)也是舉辦非常多的比賽,一般都是放在datafoundation這個(gè)平臺里邊的。

我們從哪里可以知曉比賽

首先我們第一個(gè)可以通過鏈接:https://aideadlin.es/?sub=ML,CV,CG,NLP,RO,SP,DM,這個(gè)鏈接其實(shí)就是計(jì)算機(jī)各個(gè)會(huì)議期刊,比如說我們常知的cvpr,eccv,iccv,還有一些NLP、ML、機(jī)器人等各種方向的會(huì)議。

一般來說在會(huì)議會(huì)有投稿截止日期,一般來說投稿截止之后的一個(gè)月會(huì)議就會(huì)發(fā)布workshop的比賽。?大家也可以這樣去關(guān)注一下,另外一個(gè)大家也可以關(guān)注一下【學(xué)姐帶你玩AI】的推送,公眾號會(huì)推送一些最近要舉辦的一些比賽的baseline。

通過比賽我們能得到什么

業(yè)務(wù)代碼基礎(chǔ)

大部分比賽其實(shí)就是公司拿出一部分錢來去讓大家去尋找solution寫一些業(yè)務(wù)代碼。

這也就是說我們可以通過比賽去學(xué)習(xí)的一些工作技能,?這類比賽的內(nèi)容,其實(shí)就是我們以后要去做的一些業(yè)務(wù)方向的代碼,我們就可以順便就做一些業(yè)務(wù)方向代碼的儲(chǔ)備。?說白了就是我們通過比賽,去豐富我們的技能域,也為以后的更好的面試打下基礎(chǔ)。

科研論文

對于科研向的同學(xué)來說,我們可以看一下圖,就是我們20年帶的wd比賽-全球小麥檢測比賽,這個(gè)比賽前面說到過它其實(shí)是ecCV2020的一個(gè)workshop比賽,這個(gè)比賽你看可以投paper,如果你想去寫paper的話,可以去把自己的想法寫成一篇論文來投出去。

workshop paper其實(shí)相比于eccv的full paper,它其實(shí)還是比較容易的,有這種機(jī)會(huì)的話大家一定要把握住。

上圖是在招聘的時(shí)候大家經(jīng)常看到的,一些公司去招聘算法工程師,他們一般會(huì)加上一句“有積極學(xué)習(xí)深度學(xué)習(xí)相關(guān)項(xiàng)目落地經(jīng)驗(yàn)”,這句話所需的能力大家可以去通過實(shí)習(xí)去獲得。

如何把一個(gè)項(xiàng)目落地,就是訓(xùn)好了模型,我怎么把模型放到一些端側(cè)的設(shè)備?一般我們在NVGPU上訓(xùn)練,推理了后可能是要放在某些英特爾芯片或者一些arm芯片上。

上圖中后半部分就是說在kaggle上取得優(yōu)異成績者優(yōu)先,就是說如果你在kaggle取得了優(yōu)異的成績,一般來說的話就會(huì)鍛煉出解決問題的能力。kaggle成績這也是你簡歷里的某些inside。

這里我們重點(diǎn)介紹一下kaggle的晉升系統(tǒng)

對于kaggle系統(tǒng)來說的話,它其實(shí)有5個(gè)等級,你參加了第一場比賽提交之后,你的等級會(huì)晉升到contribute

如果你在kaggle里面拿到兩場比賽的一個(gè)銅牌,你就是成為了kaggle expert(kaggle專家),如果你在kaggle里面拿到了兩個(gè)銀牌加上一個(gè)金牌,你的職稱title就是kaggle master

而如果你在kaggle比賽里邊拿到了5個(gè)金牌,并且你自己solo,沒有組隊(duì)去拿到一場比賽的金牌,那么你的稱號就成為kaggle grand master

據(jù)我了解你如果是kaggle grand master,從比賽收益上來說的話,你至少已經(jīng)賺了有10萬美金

kaggle GM在大廠,比如說騰訊字節(jié),它其實(shí)都有特殊的招聘通道的,基本上你如果有能得到一個(gè)GM稱號的話,在騰訊年薪據(jù)我所知是不低于70萬的。

舉個(gè)例子:

上面講的得到第一名的那位同學(xué)和其他兩位深度之眼的同學(xué),他們之前也有好幾次銀牌的積累了,這次的腸胃分割比賽,他們拿到了一塊金牌,那么他們從kaggle expert晉級成為了kaggle master。

包括深度之眼腸胃比賽的那兩個(gè)小助教。一個(gè)小助教,他其實(shí)剛高考完,他其實(shí)有差不多10塊kaggle獎(jiǎng)牌了,基本都是銀牌為主銅牌為輔。另一個(gè)小助教,他是今天剛上大一,他也有兩塊kaggle銀牌了。

就是說:大家通過kaggle比賽,不只是能學(xué)到的一些通用的比賽技巧,也間接的為自己以后未來的一個(gè)升值之路打下一個(gè)基礎(chǔ)。

因?yàn)槟闳ス井吘故且ジ苫畹?,需要為公司盈利的?strong>Kaggle這種晉升的體系,你如果等級越高,就說明你解決問題的能力它其實(shí)是越強(qiáng)的。?當(dāng)然這個(gè)也是需要時(shí)間的積累的,我們剛才講到的腸胃分割比賽的第一名那個(gè)同學(xué),他其實(shí)在深度之眼比賽班學(xué)習(xí)不斷打比賽打了一年多了。?他電費(fèi)都花了好幾千塊,然后自己也買了3090。大家也可以把這個(gè)kaggle比賽當(dāng)成自己的一種愛好,不斷的去進(jìn)步。

如何入門kaggle

其實(shí)對于kaggle比賽來說的話,它其實(shí)不是非常的復(fù)雜。從我自身角度來說的話分為兩方面:

代碼能力

代碼能力方面主要分為兩部分:

  • 第一部分就是模式性learningdeep learning框架。我們以pytorch為主,大家一定要學(xué)會(huì)如何用pytorch進(jìn)行構(gòu)建數(shù)據(jù)模型,優(yōu)化器損失函數(shù)等。

  • 另外一個(gè)就是各種各樣的Python包,這無非就是Sklearn包,pandas包等,大家要具備如何去洗數(shù)據(jù)的能力。

    比如說再給你一批數(shù)據(jù),你如何去把這個(gè)數(shù)據(jù)去讀進(jìn)來,組織成我們這些框架需要的一些形式,也包括通過pandas數(shù)據(jù)分析工具,去分析一下數(shù)據(jù)的一些特點(diǎn)。

舉例

拿腸胃分割比賽來舉例,對于比賽來說的話,我們通過數(shù)據(jù)分析發(fā)現(xiàn),比賽的目的是要識別出一張切片里邊的一張CT圖片里面的大腸小腸和胃,這樣的話定位出這些器官來之后,那些醫(yī)生去發(fā)射X射線去殺細(xì)胞的時(shí)候,它其實(shí)就會(huì)避免去傷害到健康細(xì)胞。

因?yàn)槟阒牢覀內(nèi)プ霭┌Y化療的時(shí)候,其實(shí)是非常耗時(shí)的。一個(gè)病人,要花費(fèi)兩個(gè)小時(shí),大部分時(shí)間都要是醫(yī)生需要去避免我們這些射線去殺死健康細(xì)胞。

然后對于我們訓(xùn)練模型來說的話,我們發(fā)現(xiàn)其實(shí)有非常多的數(shù)據(jù)特點(diǎn),通過pandas或者是通過一些可視化的那些包解決。

我們發(fā)現(xiàn)比如說有的人他其實(shí)非常胖,有的人非常瘦,這就導(dǎo)致了有的人的切片CT出來的非常寬,有的人非常窄,因?yàn)槲覀兪且?xùn)練模型,我們一定要去讓模型考慮針對我們這個(gè)人的一個(gè)胖瘦的切數(shù)據(jù)的一個(gè)魯棒性,?我們可以比如說可能去做一些針對性的數(shù)據(jù)增強(qiáng)。

另外一個(gè)我們也可視化數(shù)據(jù),發(fā)現(xiàn)我們比賽提供的數(shù)據(jù),它其實(shí)就是一個(gè)時(shí)間序列的數(shù)據(jù),正常來說我們輸入到一個(gè)比如說計(jì)算機(jī)視覺類里邊,我們輸?shù)揭粋€(gè)模型里面,它是三通道的圖片,其實(shí)對于CT圖像來說的話,它其實(shí)就是一個(gè)通道的,我們普通來說拿過來的話,可能就是我們一個(gè)通道復(fù)制三份。

對于我們分析出來的可視化,發(fā)現(xiàn)它其實(shí)有個(gè)時(shí)序關(guān)系,?我們可以把這張切片的前一秒和后一秒一后一個(gè)時(shí)刻切片,當(dāng)成我們3G通道來輸入到,這樣的話就間接來提高了我們整個(gè)切片的一個(gè)魯棒性,這樣的話其實(shí)也是能提高我們模型學(xué)習(xí)參數(shù)的一個(gè)申報(bào)性的作用。

這就是我們?yōu)槭裁匆W(xué)習(xí)各種各樣的Python包去進(jìn)行數(shù)據(jù)分析的一個(gè)原因。

論文檢索學(xué)習(xí)能力

也拿常規(guī)分割比賽來舉例,當(dāng)我們發(fā)現(xiàn)了一些問題,我們就需要要看最新的那個(gè)分割論文,大家可能比較熟悉unit,其實(shí)unit它其實(shí)就是6年前的論文了,它是16年發(fā)布的,最近的分割論文的SOTA是什么?這就需要大家要學(xué)會(huì)怎么來去定位檢索相關(guān)的論文。

我給以Google scholar為例的話,大家如果找到我就拿resnet為例,你看這是resnet它其實(shí)有12萬的引用,引用的意思就是說我resnet這篇論文我掛到了Google school了,掛到了arxiv上,之后有非常多的改進(jìn)論文,這些改進(jìn)的論文到今天為止一共有127,408篇。你點(diǎn)開被引次數(shù),看一下2022年以來,針對resnet的改進(jìn)有哪些論文。

論文它其實(shí)就是解決了某一個(gè)問題。

比如我們在拿resnet為例,它其實(shí)解決的就是一個(gè)隨著網(wǎng)絡(luò)重塑加深,觀察到,到最后幾層的時(shí)候,我們梯度它就是傳不過去,相當(dāng)于我有100層到后面幾層的時(shí)候,學(xué)習(xí)到的feature,就說明梯度已經(jīng)消失了。

觀察到這個(gè)現(xiàn)象之后,就想去解決這個(gè)問題,他就設(shè)計(jì)了一系列的殘差,來去引導(dǎo)我們披露的一個(gè)傳播,包括后面若干的一個(gè)改進(jìn)。

大家也看到直到2022年還有很多人去引用這個(gè)論文,當(dāng)然它不一定去改進(jìn)resnet,它有可能是總結(jié)了一下resnet干了什么事情,在他論文里面去提了一下resnet。

另外一個(gè)就是說對于常規(guī)分割來說的話,我們在數(shù)據(jù)集里面也觀察到了,它其實(shí)也可以用3D模型的事項(xiàng)。

拿腸胃分割比賽來說,它提供的數(shù)據(jù)集是同一個(gè)病人在一天之內(nèi)的不同時(shí)刻去拍的CT圖像,那么我們可以自然而然的去想到,如果我把這些同一時(shí)刻的那些CT圖像我們疊起來,我們知道一張圖片的話,大家可以看到的時(shí)候它其實(shí)是一個(gè)寬高的,一張圖片我們形容一張圖片是hw寬高。

那么有一個(gè)很最簡單的三維的話,就是我一個(gè)攝像相機(jī)去拍一張圖片的時(shí)候,其實(shí)有一個(gè)圖片距離一個(gè)相機(jī)的遠(yuǎn)近關(guān)系,這個(gè)遠(yuǎn)近關(guān)系我們可以設(shè)為一個(gè)depth深度,那就是h不只有hw它還有個(gè)d它這其實(shí)就是構(gòu)建一個(gè)最基本的3D圖的數(shù)據(jù)集。

如果說我們把同一個(gè)病人在同一天內(nèi)不同時(shí)刻的圖片給疊加起來,那么是不是我們可以構(gòu)建出來是一個(gè)病人的3D的數(shù)據(jù)集。

當(dāng)然我們也要用若干的差值的方法,通過3D數(shù)據(jù)集我們再去做我們整個(gè)人體的一個(gè)分割的話,它其實(shí)能解決我們2d圖片上位置相關(guān)聯(lián)系的魯棒性。

比如說我們可以想象到一個(gè)人的一個(gè)腸胃,它其實(shí)并不是一個(gè)切片是直拉上去的,它可能是歪曲歪曲的,再來看我們的腸胃比賽的話,我們也可以把3d和我們前面講的就是同一個(gè)切片,不只是復(fù)制三份,我們改為前1:后1:00刻疊加,我們單寫成為2.5d通過這兩個(gè)數(shù)據(jù)來進(jìn)行設(shè)計(jì)模型,然后來融合結(jié)果的話,其實(shí)效果來說的話就是非常好的。

這就是我去想去跟大家講的另外一個(gè)點(diǎn)。檢索學(xué)習(xí)的檢索就是第一個(gè)就是代碼能力,通過各種Python包去發(fā)現(xiàn)這個(gè)問題。另外一個(gè)就是我們2.5d和3D首先這個(gè)模型是什么?2d3d的模型分割模型有什么?

我們就可以在google上去搜一下,3D Segmentation有大家可以搜到一些3d分割的模型的信息。

另外一個(gè)就是我們再拿腸胃分割比賽來舉例,我們可以知道對于一張圖片來說的話,你可以想象到一個(gè)醫(yī)生在看一張圖片的時(shí)候,他其實(shí)是重視著這張圖片去看的,有時(shí)候你這個(gè)角度他其實(shí)并不能看到一些病變的位置。

大家去醫(yī)院的時(shí)候,可能發(fā)現(xiàn)有的醫(yī)生他可能喜歡把那個(gè)片子給翻轉(zhuǎn)一定的角度來看這個(gè)片子,這有一個(gè)叫multiview多視角概念。我們自然而然的就可以想到可不可以通過多視角來提高我們預(yù)測的視角魯棒性。

我們就可以在google scholar去搜一下multiview segmentation的一些論文。搜到一些相關(guān)的發(fā)到非常不錯(cuò)會(huì)議上的相關(guān)論文呢,我們要去借鑒出來,用到我們這個(gè)比賽上。

通過以上例子可以得出:通過kaggle比賽確實(shí)邏輯思維能力和解決問題能力得到鍛煉和提升,一個(gè)比賽我們要設(shè)計(jì)的若干個(gè)解決方案,這樣能快速的去成長,就能學(xué)習(xí)到一些東西。參加比賽的一個(gè)目的就是不斷的去學(xué)習(xí),當(dāng)熟悉流程和方法之后了之后,才會(huì)在打比賽的時(shí)候有自己的想法。

9.9拼團(tuán)購?fù)谫愐?guī)則

參加此次活動(dòng)的往期賽

其他比賽資料

35場往期賽baseline:

https://deepshare.feishu.cn/docs/doccnnphtBQpRxE9NnMj8aQXhbM

0基礎(chǔ)入門kaggle比賽要知道它不止能拿獎(jiǎng)還能發(fā)論文!的評論 (共 條)

分享到微博請遵守國家法律
孝昌县| 饶河县| 泊头市| 纳雍县| 全椒县| 邮箱| 米泉市| 南郑县| 安岳县| 石渠县| 紫金县| 东明县| 汪清县| 宁都县| 博罗县| 宜昌市| 东阳市| 连州市| 安西县| 石首市| 东乌珠穆沁旗| 新绛县| 那曲县| 高安市| 莆田市| 桦南县| 清徐县| 慈利县| 泗洪县| 华容县| 原阳县| 朔州市| 肃北| 成武县| 舟曲县| 永德县| 阿拉善盟| 雷州市| 汉阴县| 建阳市| 湟源县|