面試分享!微軟工程院新聞數(shù)據(jù)分析崗
來源:投稿 作者:雁棲沙坪
編輯:學姐
我要介紹的是微軟工程院的新聞數(shù)據(jù)分析崗位,這個小組是做微軟新聞網(wǎng)站的數(shù)據(jù)處理和分析,大家可以去msn上去體驗一下。
招聘崗位性質(zhì)
招聘的崗位優(yōu)先社招,社招各個level都有。
微軟的社招通常要找內(nèi)部人員推薦,沒有推薦的簡歷很難進面試。
崗位英文叫Applied Data Scientist,主要在蘇州,北京招的人不多。
大組Web XT Data是按照業(yè)務(wù)的垂類細分小組的,例如廣告Ads, 瀏覽器Edge和必應(yīng)Bing等。
這個小組主要做用戶行為分析,主要的數(shù)據(jù)集是用戶行為相關(guān)的,一天有90TB的數(shù)據(jù),所以讓你想持久分析的話,就涉及到了大數(shù)據(jù)平臺。
他們常用cosmos和databricks/presto做數(shù)據(jù)清洗和分析。這里就涉及到:
1、大數(shù)據(jù)處理,基本的map和reduce構(gòu)架,數(shù)據(jù)處理管道的構(gòu)建和監(jiān)測。
2、大數(shù)據(jù)分析,傳統(tǒng)的統(tǒng)計學知識和機器學習模型,包括各種數(shù)據(jù)計算,數(shù)據(jù)預測,異常檢測和關(guān)聯(lián)度分析。
該職位工作環(huán)境
這個組和美國團隊緊密合作的,所以你入職以后的英文的論述能力還是挺重要,總結(jié)起來就是希望你有相對扎實的英語功底,閱讀書寫希望可以好一點,聽說能力不強求。
因為這個組跟美國那邊交流緊密,非常容易transfer出去。大部分人10點上班18點下班,WLB。
微軟數(shù)據(jù)分析崗位不是做開發(fā)的,進來之后做的和國內(nèi)其他大廠差不多,SQL、Python和機器學習三板斧,工程方面的工作有專門的同學做。
微軟的技術(shù)面試是必須考數(shù)據(jù)結(jié)構(gòu)和算法的(包括數(shù)據(jù)分析崗位),而且?guī)缀趺恳惠啠偣?輪)都會考,內(nèi)容包括鏈表、二叉樹、數(shù)組、十大排序算法、動態(tài)規(guī)劃、回溯法等知識,大家可以考前刷一刷Leetcode,上面有微軟的部分題庫,主要看Easy和Mid的難度。
微軟招聘流程介紹
1輪技術(shù)初篩+4或5輪正式面(全部遠程)。
第一輪是技術(shù)初篩,需要考驗你寫代碼和算法的基礎(chǔ)能力。你給我簡歷以后,如果簡歷合適,幾乎都拿到這個面試。
之后是五輪正式面,前三面,大多數(shù)情況下考驗你的編程能力和算法。如果你是數(shù)據(jù)分析崗并且有統(tǒng)計或者機器學習的經(jīng)驗,也會作為一個加分項,考驗你這方面的功底。
第四面是很可能是你未來的老板,主要考驗你的相關(guān)崗位的適應(yīng)性。
最后大佬面,一般是你老板的老板,面的東西就比較寬泛。
不過一般到了最后一面,我很少見過掛的。
在整個面試過程中,算法和編程能力是核心基礎(chǔ),但是也不能代表面試的全部。
其他方面的軟性技能,例如,你對自己之前項目的了解、技術(shù)和業(yè)務(wù)細節(jié)的掌握,你的溝通能力、邏輯思維能力、在遇到壓力下臨場解決問題的能力,以及在整個面試過程中展現(xiàn)出來的項目管理能力、對之前工作的感悟和見解,這些可能是支撐面試的全部。
當然這些只是我個人的理解,因為微軟很大,面試官也很多,以上這些信息僅供想看微軟崗位的你參考。
社招有一輪是全程英文,外國人面試。
校招一般都是中國人,但是也會測試你的英文水平,例如用英文解釋自己的項目。如果轉(zhuǎn)行數(shù)據(jù)分析,應(yīng)該做一些什么樣的準備?
我這個在微軟工作的朋友本碩都是學理論物理的,學習路線給大家參考一下:
Python
先掌握基本語法,然后學習一些常見的包的使用,例如Pandas, Numpy, Seaborn, Matlibplot,待會在評論區(qū)給大家推薦一個我學習這些包的Github項目,非常適合入門)
統(tǒng)計學知識(貝葉斯公式,伯努利分布,二項分布,泊松分布,正態(tài)、t、卡方、F分布以及對應(yīng)的假設(shè)檢驗方法,還有AB test,概率計算都是數(shù)據(jù)分析面試??嫉闹R)
SQL
這個比Python簡單,可以快速入門,刷題就完事了。
(可以先學where group by 等基礎(chǔ)的,再學兩個表的連接left join, inner join, outer join, union,最后進階學習下窗口函數(shù))
進階內(nèi)容:機器學習
這個只需要掌握傳統(tǒng)的一些算法就行,沒必要學深度學習。例如線性回歸,邏輯回歸要熟悉,決策樹,SVM, XGBOOST最好在自己的項目實踐一下,還有一些通用的知識例如什么是Bagging,Boosting,F(xiàn)1 score和ROC曲線,特征工程怎么做,異常值怎么去除,正負樣本比例怎么調(diào),超參數(shù)怎么調(diào),梯度下降原理是啥等等。
推薦大家先看李航老師的《統(tǒng)計學習方法第二版》,然后在kaggle上跟著別人的blog把別人的項目復現(xiàn)出來,最后可以自己做一做自己感興趣的項目甚至打一打Kaggle的比賽。
PS:總結(jié)來說就是 Leetcode刷題一定要堅持
關(guān)注【學姐帶你玩AI】公眾號
回復“簡歷”領(lǐng)取300+簡歷模板&算法工程師萬能簡歷公式