這是一篇關(guān)于如何成為一名AI算法工程師的長文(來源Datawhale 張怡)

文章來源:公眾號:Datawhale,作者:張怡
鏈接:https://mp.weixin.qq.com/s/kreVG3PA1wO2xXwX5MCF5A
正文:
經(jīng)常有朋友私信問,如何學(xué)python呀,如何敲代碼呀,如何進(jìn)入AI行業(yè)呀?
正好回頭看看自己這一年走過的路,進(jìn)行一次經(jīng)驗(yàn)總結(jié)。
來看看你距離成為一名AI工程師還有多遠(yuǎn)吧~
?具體內(nèi)容:
?? 我是因?yàn)槭裁撮_始接觸敲代碼
?? 人工智能/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)
?? 自學(xué)如何尋找學(xué)習(xí)資料
?? 如何選擇編程語言/框架
?? 校招/社招/實(shí)習(xí)/面試經(jīng)驗(yàn)
?? 一碗雞湯
?聲明:
?? 本篇內(nèi)容均屬于個人觀點(diǎn),建議采納對自己有用的經(jīng)驗(yàn),如有疏漏,歡迎指正,共同進(jìn)步!
?? 2017年5月開始第一份實(shí)習(xí) / 2017年7月開始學(xué)敲代碼 / 2017年11月碩士畢業(yè)
?? 擅長的編程語言:R / Python
?? 不花錢報(bào)班,全靠自學(xué),最初是因?yàn)楦F,后來發(fā)現(xiàn)“開源”的世界真是太美好了!

?我是因?yàn)槭裁撮_始接觸敲代碼?
我的第一個模型是什么
由于本科是數(shù)學(xué),研究生是量化分析,第一份實(shí)習(xí)是一家金融科技公司,開始接觸所謂的“Fintech”??
第一個任務(wù)就是做客戶的信用評分卡模型,目的給每個用戶打一個信用分?jǐn)?shù),類似支付寶的芝麻信用分。這是銀行標(biāo)配的一個模型,最常見最傳統(tǒng)的算法用的就是邏輯回歸。
在課堂上使用的工具是SAS,SPSS,屬于有操作界面的,菜單非常齊全,只需要鼠標(biāo)點(diǎn)一點(diǎn)就能建模,很好上手。但是SAS這些要付錢的,年費(fèi)還是相當(dāng)?shù)馁F,所以深圳大部分公司進(jìn)行數(shù)據(jù)分析和建模工作都選擇開源免費(fèi)的R語言或者Python。這就體現(xiàn)了掌握一門編程語言的重要性。
雖然說是建模任務(wù),但是前三個月跟建?;径汲恫簧线叀6荚谧鰯?shù)據(jù)清洗,表格整理(攤手),都在library各種包,用的最多的可能是data.table和dplyr。沒辦法,很多模型都有包可以直接調(diào)用,是最簡單的環(huán)節(jié)了。其實(shí)一開始,我一直在犯很低級的錯誤,各種報(bào)錯,沒有l(wèi)ibrary啦,標(biāo)點(diǎn)符號沒打?qū)?,各種很low的錯誤犯了一次又一次,而且連報(bào)錯的內(nèi)容都不會看,不知道怎么去改正。如果你也像我一樣,真的請不要灰心,我就是這樣走過來的。對著錯誤一個個去解決就好了~
當(dāng)時(shí)什么都不知道的時(shí)候,覺得真難呀,每個環(huán)節(jié)都有那么多細(xì)節(jié)要照顧,要學(xué)的那么多,做完一個還有一個,還要理解業(yè)務(wù)含義。但是當(dāng)完整的做一遍之后再回頭,就會覺得,其實(shí),也沒那么難嘛~

敲代碼容易嗎
因?yàn)槲也皇怯?jì)算機(jī)專業(yè)的,所以基本上屬于沒怎么敲過代碼的那種。
后來發(fā)現(xiàn)程序員也有好多種類的,前端后端等,因此敲的代碼種類也很多,才會有幾十種的編程語言,下圖是一些這幾年的主流語言。

實(shí)習(xí)時(shí)我一直被隊(duì)友嫌棄很蠢,而且一開始敲的東西怎么也運(yùn)行不通,運(yùn)行出來的都是鬼結(jié)果。有n次想放棄的念頭,“我干嘛一定要敲這玩意兒?”,但也有n+1次想堅(jiān)持的理由,因?yàn)槲艺娴南矚g我正在做的事。為什么用“堅(jiān)持”,因?yàn)檎娴牟蝗菀?。不難,但真的需要有耐心。
一開始我的狀態(tài)就是一行行代碼的運(yùn)行,一個個命令的熟悉,反復(fù)看,反復(fù)運(yùn)行。
從敲出第一行代碼到敲出第一個完整的模型花了3個月
學(xué)習(xí)XGBoost,光是理論學(xué)了3個月,因?yàn)榍捌阡亯|要學(xué)的還有adaboost/gbdt和各種機(jī)器學(xué)習(xí)的知識模塊
從R切換到python花了1個月
從機(jī)器學(xué)習(xí)(Machine Learning)切換到自動機(jī)器學(xué)習(xí)(Auto Machine Learning)花了2個月
從NLP零基礎(chǔ)到搭建一個智能問答機(jī)器人花了1個月
從一年前的“什么是過擬合,什么是交叉檢驗(yàn),損失函數(shù)有哪些”到后來參加全球人工智能峰會時(shí)都能聽懂的七七八八,會覺得,努力沒有白費(fèi)呀!

可以看出,經(jīng)過前面的積累,后面會學(xué)的越來越快。
慢慢的就從一開始的那種“唉,怎么又報(bào)錯啊,好挫敗”的心態(tài)變成現(xiàn)在的“啊?沒error?感覺不對啊,再查驗(yàn)一遍吧”這種抖M傾向的人。代碼虐我千百遍,我已經(jīng)被磨的沒有了脾氣。
已經(jīng)有幾個朋友說想轉(zhuǎn)行了,我何曾沒想過,只是不知不覺中堅(jiān)持了下來而已。因?yàn)闊釔?,越虐越停不下??
小結(jié)
??設(shè)定一個非常清晰的目標(biāo)
為什么第一個寫:“我是因?yàn)槭裁撮_始敲代碼的”,因?yàn)閯訖C(jī)真的非常重要!
所以,很多人在問我“如何學(xué)python?”這種問題時(shí),我的第一回答都是“你學(xué)python用來干嘛?”
在學(xué)校也敲打過python,做個爬蟲demo什么的,因?yàn)槟康男圆粡?qiáng)沒多久就放一邊了。清晰的目標(biāo)就比如說你要做NLP,你要知道NLP的應(yīng)用有智能問答,機(jī)器翻譯,搜索引擎等等。然后如果你要做智能問答你要知道現(xiàn)在最發(fā)達(dá)的技術(shù)是深度學(xué)習(xí),使用的算法有RNN/LSTM/Seq2Seq/等等一系列。而我的清晰目標(biāo)是在實(shí)習(xí)的時(shí)候給我的任務(wù)。當(dāng)任務(wù)很明確的時(shí)候,所需要的語言就明確了,所要學(xué)習(xí)的算法也就明確了,很多東西就順理成章了不用一頭亂撞了。
??從金融到科技
AI的應(yīng)用范圍很廣,每一個研究方向都是無窮盡的。由于金融公司很少與圖像處理,NLP等技術(shù)會有交集,而我強(qiáng)大的好奇心讓我決定去純粹的科技公司一探究竟。目前已投身于智能家居,目標(biāo)是Javis??
?人工智能/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)
我經(jīng)常在公交的廣告牌上看見這些詞,好像哪家公司沒有這個技術(shù)就落后了似的。更多的還有強(qiáng)化學(xué)習(xí),遷移學(xué)習(xí),增量學(xué)習(xí)等各種學(xué)習(xí)。
這些詞兒之間到底什么關(guān)系
機(jī)器學(xué)習(xí)是人工智能的一種,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種。學(xué)AI先學(xué)機(jī)器學(xué)習(xí)。

計(jì)算機(jī)的“算法” 與 數(shù)學(xué)的“算法” 的區(qū)別
理論知識對于AI算法工程師極其重要。敲代碼只是思路的一個實(shí)現(xiàn)過程。這里的“算法”和計(jì)算機(jī)CS的“算法”還不太一樣,AI算法是偏數(shù)學(xué)推導(dǎo)的,所以數(shù)學(xué)底子還是需要點(diǎn)的,學(xué)的越深,要求越高。面試的時(shí)候,很少讓手寫代碼,90%都是在問模型摳算法細(xì)節(jié)。
在學(xué)校我是一個不愛記筆記的人,甚至是一個不愛上課的人。但是自從入了機(jī)器學(xué)習(xí)的坑后,筆記寫的飛起~


機(jī)器學(xué)習(xí)的框架
按照數(shù)據(jù)集有沒有Y值可以將機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是分類算法,無監(jiān)督學(xué)習(xí)是聚類算法。

機(jī)器學(xué)習(xí)的通用流程和相關(guān)技術(shù)如下圖:

ML這棵樹還可以有更多的分支。先有個整體感受,再一個一個的解決掉。這里的知識點(diǎn)也是面試最愛問的幾個,是重點(diǎn)呀!面試過的同學(xué)應(yīng)該都不陌生了。
機(jī)器學(xué)習(xí)如何入門
機(jī)器學(xué)習(xí)之大,初學(xué)者都無從下手。說白了,機(jī)器學(xué)習(xí)就是各種模型做預(yù)測,那么就需要有數(shù)據(jù),要想有好的效果,就要把原始的臟數(shù)據(jù)洗干凈了才能用。數(shù)據(jù)內(nèi)隱藏的信息有時(shí)候是肉眼不可見的,那么就需要一些相關(guān)技巧來把有用信息挖出來。所有絞盡腦汁使用的技巧,都是為了能預(yù)測的更準(zhǔn)確。但是誰也沒辦法做到百分百的命中。
這里簡單介紹下機(jī)器學(xué)習(xí)的三大塊:傳統(tǒng)的機(jī)器學(xué)習(xí)ML、圖像處理CV、自然語言處理NLP
再推薦一個入門神器:
Kaggle(www.kaggle.com)
這是一個世界級的最權(quán)威的機(jī)器學(xué)習(xí)比賽,已被谷歌收購。上面的賽題不僅很有代表性,還有很多免費(fèi)的優(yōu)秀的數(shù)據(jù)集供你使用,要知道收集數(shù)據(jù)是機(jī)器學(xué)習(xí)的第一大難題,它就幫你解決了。入門不用立馬參加比賽,把數(shù)據(jù)下載下來,盡情折騰就好了,要是沒有思路,去網(wǎng)上搜別人的解題筆記和代碼借鑒一下也很美好~因?yàn)檫@是大家都爭相打榜的比賽,所以你并不孤單。
??ML入門該參加的賽題(Titanic)

??圖像入門該參加的賽題(數(shù)字識別)

??NLP入門該參加的賽題(情感分析、quora問句語義匹配)


等做完第一個titanic的比賽應(yīng)該就有點(diǎn)感覺了。上面4個比賽我都做過,覺得很經(jīng)典,很適合入門。
深度學(xué)習(xí)的入門算法有哪些
如今的樣本輸入可以是文字,可以是圖像,可以是數(shù)字。
深度學(xué)習(xí)是跟著圖像處理火起來的。甚至現(xiàn)在這個概念都火過了“機(jī)器學(xué)習(xí)”。
深度學(xué)習(xí)的算法主要都是神經(jīng)網(wǎng)絡(luò)系列。入門推薦CNN(卷積神經(jīng)網(wǎng)絡(luò))的一系列:
?? LeNet5
?? AlexNet
?? VGG
?? GoogleNet
?? ResNet
?自學(xué)如何尋找學(xué)習(xí)資料?
開源的世界,美好的世界?
“開源”,我的愛!代碼屆里開源的中心思想就是,share and free??
對于機(jī)器學(xué)習(xí),網(wǎng)上的社區(qū)氛圍特別好,分享的很多很全面,而且MLer都非常樂于助人。
介紹幾個我經(jīng)常逛的社區(qū),論壇,和網(wǎng)頁:
??kaggle (www.kaggle.com)
全球最權(quán)威的機(jī)器學(xué)習(xí)比賽,已被谷歌收購。賽題覆蓋傳統(tǒng)機(jī)器學(xué)習(xí)、nlp、圖像處理等,而且都是很實(shí)際的問題,來自各行各業(yè)。kaggle是數(shù)一數(shù)二完善的ML社區(qū)了,賽題開放的數(shù)據(jù)集就很有用,非常適合新手練手。對優(yōu)秀的kaggler也提供工作機(jī)會。
??github(www.github.com)
全球最大同性交友網(wǎng)站,適合搜項(xiàng)目,開源大社區(qū),大家一起看星星,看issue~
??StackOverFlow(www.stackoverflow.com)
代碼報(bào)錯找它,代碼不會敲找它!所有與代碼相關(guān)的坑,基本都有人踩過啦??
??csdn(www.csdn.net)
最接地氣的博客聚集地,最常看的網(wǎng)頁之一,一般用來搜索細(xì)節(jié)知識點(diǎn)或者代碼報(bào)錯時(shí)
??sklearn(scikit-learn.org/stable)
專業(yè)做機(jī)器學(xué)習(xí)100年!各算法各技巧的例子code應(yīng)有盡有
??medium(medium.com)
創(chuàng)辦人是Twitter的創(chuàng)始人,推崇優(yōu)質(zhì)內(nèi)容,國內(nèi)很多AI公眾大號的搬運(yùn)都來自于這里,medium里每個作者都有自己獨(dú)特的見解,值得學(xué)習(xí)和開拓眼界,需要科學(xué)上網(wǎng)
??towards data science(towardsdatascience.com)
與medium很像,需要科學(xué)上網(wǎng)
??google AI blog(ai.googleblog.com)
谷歌的AI團(tuán)隊(duì)維護(hù)的博客,每天至少更新一篇技術(shù)博客。剛在上海開的谷歌開發(fā)者大會宣布將會免費(fèi)開放機(jī)器學(xué)習(xí)課程,值得關(guān)注一下,畢竟是AI巨頭
??各種大神的技術(shù)博客/個人網(wǎng)站
有很多的網(wǎng)站,會不定期的更新在我的個人博客里
有口碑的AI公開課平臺
首先說明我沒有上課,也沒有報(bào)班,屬于個人學(xué)習(xí)習(xí)慣問題。但考慮到學(xué)習(xí)差異性,所以還是總結(jié)了口碑排名靠前的課程系列。前提,需要有一定數(shù)學(xué)基礎(chǔ),沒有的可以順便補(bǔ)一補(bǔ)。
??coursera(www.coursera.org/browse)
??吳恩達(dá)(Andrew Ng)機(jī)器學(xué)習(xí)
??deeplearning.ai(www.deeplearning.ai)
??fast.ai(www.fast.ai)
專注于深度學(xué)習(xí)。Fast.ai的創(chuàng)始人就蠻有意思的,是橫掃kaggle圖像處理的高手,不擺架子,也不故弄玄虛。中心思想就是深度學(xué)習(xí)很簡單,不要怕。fast.ai有博客和社區(qū)。Jeremy和Rachel鼓勵撰寫博客,構(gòu)建項(xiàng)目,在會議中進(jìn)行討論等活動,以實(shí)力來代替?zhèn)鹘y(tǒng)證書的證明作用。
??udacity(in.udacity.com)
有中文版,課程覆蓋編程基礎(chǔ),機(jī)器學(xué)習(xí),深度學(xué)習(xí)等。
??網(wǎng)易云課堂
碎片時(shí)間
科技圈也是有潮流要趕的,等你入坑就知道。
追最新的論文,最新的算法,最新的比賽,以及AI圈的網(wǎng)紅是哪些~有條件的開個twitter,平時(shí)娛樂看看機(jī)器學(xué)習(xí)板塊還是蠻有意思的,有很多自嘲的漫畫~
推薦幾個我超愛看的AI主題美劇
??硅谷(強(qiáng)推!簡直是我日常生活,太有共鳴了~下飯劇??)
??西部世界(看的時(shí)候不要學(xué)我一直在思考如何實(shí)現(xiàn)這個那個技術(shù)??)
實(shí)用的小技巧
??瀏覽器首推 chrome
??當(dāng)閱讀英文網(wǎng)頁呼吸困難時(shí),右擊選擇“翻成中文(簡體)”
考過雅思和GMAT,曾經(jīng)我也是一個熱愛英文的孩子,如今跪倒在海量技術(shù)文檔和文獻(xiàn)里茍活
??搜索問題一定用google,如果沒解決是你的問題不是google的鍋??
baidu???ummm......別為難我......很少用
??學(xué)會提問很重要,搜索格式推薦
語言+問題,例如:python how to convert a list to a dataframe
直接復(fù)制錯誤信息,例如:ValueError: No variables to save...
請把所有的問題往上拋,網(wǎng)上查比問人快!總是問別人會引起關(guān)系破裂的~
??學(xué)會順藤摸瓜
當(dāng)你讀到一個非常不錯的技術(shù)文檔時(shí),看完別急著關(guān)掉。這可能是一個個人網(wǎng)站,去觀察菜單欄里有沒有【About】選項(xiàng)?;蛘哌@也可能是一個優(yōu)秀的社區(qū),看看有沒有【Home】選項(xiàng),去看看po的其它的文章。
??很多優(yōu)秀網(wǎng)站都是英文,科學(xué)上網(wǎng)必不可少
??學(xué)習(xí)費(fèi)用不來自課程,可能來自于硬件要求,學(xué)生黨要利用好學(xué)校資源
小結(jié)
雖然說了那么多,但還是要說請放棄海量資料!用多少,找多少就好了?。▌e把這句話當(dāng)耳旁風(fēng)??)
資料不在量多而在于內(nèi)容是有質(zhì)量保證的。很多課程或者公眾號只管塞知識,你有疑問它也解答不了的時(shí)候,這樣出來的效果不好,就像一個模型只管訓(xùn)練,卻不驗(yàn)證,就是耍流氓。
?如何選擇編程語言/框架
首選英語!!?。瓤?,我認(rèn)真的??)
說到底,語言只是工具,不去盲目的追求任何一種技術(shù)。根據(jù)任務(wù)來選擇語言,不一樣的程序員選擇不一樣的編程語言。很多人最后不是把重點(diǎn)放在能力而是炫工具,那就有點(diǎn)走偏了。
據(jù)觀察,在機(jī)器學(xué)習(xí)組里R和Python是使用率最高的兩門語言,一般你哪個用的順就用哪個,只要能達(dá)到效果就行,除非強(qiáng)制規(guī)定。
我使用之后的感受是,人生苦短,我用python??
用python建個模型到底多難?
算法任務(wù)大致分為兩種,一種是普通算法工程師做的“調(diào)包、調(diào)參”,另一種是高級算法工程師做的,可以自己創(chuàng)建一個算法或者能靈活修改別人的算法。
先說說建個模到底有多簡單吧。
??有優(yōu)秀的算法封裝框架
tensorflow / caffe / keras /...?
??Auto ML 是不可阻擋的一個方向
Auto ML(auto machine learning),自動機(jī)器學(xué)習(xí)。就是你只管丟進(jìn)去數(shù)據(jù),坐等跑出結(jié)果來就行了。前一陣子谷歌的CloudML炒的很火,愿景是讓每個人都能建模,但畢竟這種服務(wù)是要錢的。所以我研究了下開源的auto sklearn框架的代碼,發(fā)現(xiàn)了什么呢?建模到底有多簡單呢?就,簡單到4行代碼就可能打敗10年工作經(jīng)驗(yàn)的建模師。
再說回來,如果你自己根本不知道自己在做什么,只能跑出來一個你不能負(fù)責(zé)的結(jié)果,就是很糟糕的,那還不是一個合格的算法工程師。你的模型必須像你親生的那樣。但是,只要你想,絕對能做到的!
學(xué)習(xí)python電腦上要裝哪些東西
??Anaconda
對,就是這么簡單粗暴,裝這個就ok了
學(xué)python的應(yīng)該都會面臨到底是python2還是python3的抉擇吧。語言版本和環(huán)境真的很讓人頭疼,但是Anaconda驚艷到我了,就是可以自定義python環(huán)境,你可以左手py2右手py3??
推薦幾個python的IDE
??Spyder
Anaconda自帶的ide。界面排版與Rstudio和Matlab很相似。輸入什么就輸出什么結(jié)果,適合分析工作,我寫小功能的時(shí)候很喜歡用。
??Jupyter Notebook
Anaconda自帶的ide,屬于web界面的。當(dāng)你程序跑在虛擬機(jī),想調(diào)代碼的時(shí)候適合用。
??PyCharm
對于寫項(xiàng)目的,或者代碼走讀的比較友好。當(dāng)你需要寫好多python文件互相import時(shí),特別好用。
我的筆記本配置
(不考慮經(jīng)濟(jì)約束的請忽略這條)
牌子+型號:ThinkPad X1 Carbon
推薦配置:i7+16G內(nèi)存+256G(或更多)硬盤
系統(tǒng)推薦:Linux,因?yàn)殚_源,有空可以玩玩
?校招/社招/實(shí)習(xí)/面試經(jīng)驗(yàn)
??如何安排校招
大廠的開放時(shí)間會比較早,密切關(guān)注網(wǎng)申時(shí)間節(jié)點(diǎn):
2019屆的秋招:2019年7月 - 2019年11月
2020屆的春招:2020年2月 - 2020年4月
2020屆的暑期實(shí)習(xí):2020年3月 - 2020年5月
2020屆的秋招:2020年7月 - 2020年11月
(以此類推)
??手撕代碼能力
建議提早半年開始準(zhǔn)備。我的代碼也是從實(shí)習(xí)開始敲起,敲了半年才覺得下手如有神哈哈。不要做沒實(shí)際意義的課后題,也不要照著書本例題敲,敲完你就忘了,書本這些都是已經(jīng)排除萬難的東西,得不到什么成長。
入門修煉:全國大學(xué)生數(shù)學(xué)建模競賽、全美大學(xué)生數(shù)學(xué)建模競賽、kaggle、天池…
??項(xiàng)目經(jīng)歷/實(shí)習(xí)經(jīng)歷
如果明確自己的職業(yè)方向?yàn)槿斯ぶ悄?數(shù)據(jù)挖掘類的,請不要浪費(fèi)時(shí)間去申請其他與技術(shù)無關(guān)的實(shí)習(xí)。端茶送水,外賣跑腿,打印紙并不能幫你。當(dāng)時(shí)由于身邊同學(xué)都斷斷續(xù)續(xù)出去實(shí)習(xí),面前有一份大廠行政的實(shí)習(xí),我…竟然猶豫了一下,好在也還是拒絕了。
盡量選擇大廠的技術(shù)實(shí)習(xí),畢竟以后想進(jìn)去會更難。但是不要因?yàn)橐粋€月拿3000塊就只干3000塊的活。把整個項(xiàng)目跟下來,了解框架的架構(gòu),優(yōu)化的方向,多去嘗試,就算加班(加班在深圳很正常)也是你賺到,思考如何簡化重復(fù)性工作,去嘗試了解自己部門和其他部門的工作內(nèi)容與方向,了解的越多你對自己想做的事情了解的也越多。我實(shí)習(xí)做的評分卡模型,除了傳統(tǒng)邏輯回歸,也嘗試新的XGB等等,而且雖然別人也在做,但是私下自己會把整個模型寫一遍,包含數(shù)據(jù)清洗和模型調(diào)優(yōu)等,這樣對業(yè)務(wù)的了解也更透徹,面試起來所有的細(xì)節(jié)都是親手做過的,也就比較順了。
如果沒有實(shí)習(xí)在手,世界給我們數(shù)據(jù)挖掘選手的大門還是敞開著的。kaggle上有專門給數(shù)據(jù)挖掘入門者的練習(xí)場。相關(guān)的比賽還有很多,包括騰訊、阿里等大廠也時(shí)不時(shí)會發(fā)布算法大賽,目測這樣的算法大賽只會越來越多,你堅(jiān)持做完一個項(xiàng)目,你在平臺上還可以得到相關(guān)名次,名次越靠前越有利哈哈哈這是廢話。
??BAT常見的面試題(不分先后)
自我介紹/項(xiàng)目介紹
類別不均衡如何處理
數(shù)據(jù)標(biāo)準(zhǔn)化有哪些方法/正則化如何實(shí)現(xiàn)/onehot原理
為什么XGB比GBDT好
數(shù)據(jù)清洗的方法有哪些/數(shù)據(jù)清洗步驟
缺失值填充方式有哪些
變量篩選有哪些方法
信息增益的計(jì)算公式
樣本量很少情況下如何建模
交叉檢驗(yàn)的實(shí)現(xiàn)
決策樹如何剪枝
WOE/IV值計(jì)算公式
分箱有哪些方法/分箱原理是什么
手推SVM:目標(biāo)函數(shù),計(jì)算邏輯,公式都寫出來,平面與非平面
核函數(shù)有哪些
XGB原理介紹/參數(shù)介紹/決策樹原理介紹/決策樹的優(yōu)點(diǎn)
Linux/C/Java熟悉程度
過擬合如何解決
平時(shí)通過什么渠道學(xué)習(xí)機(jī)器學(xué)習(xí)(好問題值得好好準(zhǔn)備)
決策樹先剪枝還是后剪枝好
損失函數(shù)有哪些
偏向做數(shù)據(jù)挖掘還是算法研究(好問題)
bagging與boosting的區(qū)別
模型評估指標(biāo)有哪些
解釋模型復(fù)雜度/模型復(fù)雜度與什么有關(guān)
說出一個聚類算法
ROC計(jì)算邏輯
如何判斷一個模型中的變量太多
決策樹與其他模型的損失函數(shù)、復(fù)雜度的比較
決策樹能否有非數(shù)值型變量
決策樹與神經(jīng)網(wǎng)絡(luò)的區(qū)別與優(yōu)缺點(diǎn)對比
數(shù)據(jù)結(jié)構(gòu)有哪些
model ensembling的方法有哪些
??小結(jié)
問題是散的,知識是有關(guān)聯(lián)的,學(xué)習(xí)的時(shí)候要從大框架學(xué)到小細(xì)節(jié)。
沒事多逛逛招聘網(wǎng)站看看招聘需求,了解市場的需求到底是什么樣的。時(shí)代變化很快,捕捉信息的能力要鍛煉出來。你可以關(guān)注的點(diǎn)有:職業(yè)名/職業(yè)方向/需要會什么編程語言/需要會什么算法/薪資/...
每個面試的結(jié)尾,面試官會問你有沒有什么想問的,請注意這個問題也很關(guān)鍵。
比如:這個小組目前在做什么項(xiàng)目/實(shí)現(xiàn)項(xiàng)目主要用什么語言和算法/…
盡量不要問加不加班,有沒有加班費(fèi)之類的,別問我為什么這么說(攤手)
在面試中遇到不理解的,比如C++語法不懂,可以問這個C++具體在項(xiàng)目中實(shí)現(xiàn)什么功能。如果你提出好問題,能再次引起面試官對你的興趣,那就能增加面試成功率。
應(yīng)屆生就好好準(zhǔn)備校招,別懶,別怕輸,別怕被拒,從哪里跌倒從哪里起來。社招不是你能招呼的,會更挫敗,因?yàn)槟闶裁匆矝]做過。
雖然是做技術(shù)的,但是日常social一下還是收益很大的。實(shí)習(xí)的時(shí)候,也要與周圍同事和平相處,尤其是老大哥們,也許哪天他就幫你內(nèi)推大廠去了。內(nèi)推你能知道意想不到的信息,面試官,崗位需求,最近在做什么項(xiàng)目之類的。
挑選給你機(jī)會的公司,不要浪費(fèi)自己的時(shí)間。不要每家都去,去之前了解這家公司與你的匹配度。
尤其社招,你一改動簡歷就很多人給你打電話,你要有策略的去進(jìn)行面試,把握總結(jié)每個機(jī)會。像我就是東一榔頭西一榔頭的,好多都是止步于第一面,就沒回信兒了,因?yàn)槊看蚊嫱隂]有好好反思總結(jié),等下次再遇到這問題還是抓瞎,十分消耗自己的時(shí)間和信心。
?一碗雞湯
??一切才剛剛開始,別著急
AI才剛剛起步,為什么呢?因?yàn)樯蠑?shù)學(xué)課的時(shí)候,課本上都是柯西,牛頓,高斯等等,感覺他們活在遙遠(yuǎn)的時(shí)代,很有陌生感。但是現(xiàn)在,我每天用的模型是比我沒大幾歲的陳天奇創(chuàng)造出來的,我甚至follow他的社交賬號,他就鮮活在我的世界里,這種感覺,很奇妙。每次查論文查文獻(xiàn)的時(shí)候,看2017年出來的都覺得晚了,懊悔自己怎么學(xué)的這么慢,看2018年2月出來的才心里有點(diǎn)安慰。這個證明,你在時(shí)代發(fā)展的浪潮上,也是一切剛剛起步的證明。機(jī)遇與挑戰(zhàn)并肩出現(xiàn)的時(shí)候,是你離創(chuàng)造歷史最近的時(shí)候。而所謂的風(fēng)口所謂的浪尖都不重要,重要的是,因?yàn)槟阆矚g。
??找一件可以堅(jiān)持的事,不要停止去尋找的腳步
當(dāng)人做喜歡的事情時(shí),會發(fā)光呀!
當(dāng)你因?yàn)檎娴臒釔勰臣?,而不斷接近它的時(shí)候,你的靈魂像是被上帝指點(diǎn)了迷津,受到了指示,受到了召喚。你會很自然的知道該做什么,你想做什么,好像生而為了這件事而來。你有時(shí)候自己都想不明白為什么做這件事。看過月亮與六便士的應(yīng)該懂這種使命感~

我不是屬于聰明的那類人,我是屬于比較倔的那種。就是只要我認(rèn)定的,我認(rèn)定到底。天知道我有多少次懷疑過自己,有多少次想放棄,但我還是選擇咬牙向前,選擇相信自己。堅(jiān)持的意義就在這里。
