最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

關(guān)于AI科研的真心話

2021-11-03 10:46 作者:二次元的Datawhale  | 我要投稿

作者:吳齊天,上海交通大學(xué)CS博士在讀,微軟學(xué)者,多篇頂會(huì)一作

內(nèi)容來源:Datawhale在上海交通大學(xué)的線下分享

大家好,我叫吳齊天,今天主要是跟大家分享一下我的科研經(jīng)歷,后面會(huì)有一個(gè)簡單的經(jīng)驗(yàn)總結(jié)。

首先和大家介紹一下我的經(jīng)歷,我現(xiàn)在是交大計(jì)算機(jī)系的博士生,研究方向是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,主要是關(guān)注復(fù)雜結(jié)構(gòu)數(shù)據(jù)的學(xué)習(xí)問題,應(yīng)用場(chǎng)景有推薦系統(tǒng)、在線廣告、社交網(wǎng)絡(luò)以及知識(shí)圖譜等。目前發(fā)表了14篇論文,包括10篇獨(dú)立一作,其中有6篇論文發(fā)表在NeurIPS/ICML/KDD三大頂會(huì)上。



科研方法分享

首先,選擇一個(gè)自己感興趣的方向非常重要。一個(gè)比較好的科研方向,它應(yīng)該是有理論和實(shí)際價(jià)值的,同時(shí)也是有挑戰(zhàn)性的,并且還有比較強(qiáng)的可操作性。

科研的基本流程可以分為四步,首先是選題,然后是確立模型和方法,第三是代碼的實(shí)現(xiàn)并驗(yàn)證,最后是論文寫作。這里可能本科生(或者剛開始接觸科研的人)會(huì)比較擅長做第三步,就是代碼的實(shí)現(xiàn)并驗(yàn)證,但是不太擅長第二步確立模型和方法,特別是需要把一個(gè)問題模型用數(shù)學(xué)語言形式化出來的,很少見到剛?cè)腴T的同學(xué)擅長,以及第四個(gè)論文寫作也是入門容易但精通比較難。這些我稍后會(huì)細(xì)講。

其實(shí),在科研的四步流程里我覺得最難的是選題,就是你到底關(guān)注什么樣的問題,可能是比解決這個(gè)問題更難,那么我們就先從最難的說起。選題有一種情況是你的導(dǎo)師或者學(xué)長學(xué)姐carry你,直接給了一個(gè)很具體的題目,那這個(gè)時(shí)候當(dāng)然是很好的,但是大部分情況下你需要自己去找做什么樣的題目,什么樣的方向。這個(gè)時(shí)候我的建議是,剛開始可以先follow別人的工作,然后從一個(gè)非常具體非常明確的問題開始,后面做著做著,再去逐漸深入,把它進(jìn)行一般化,變換到別的場(chǎng)景去。

文獻(xiàn)閱讀其實(shí)非常重要的。如果你要了解一個(gè)領(lǐng)域,讀論文是最有效的方式?,F(xiàn)在網(wǎng)上有很多大佬帶你讀論文,包括一堆網(wǎng)課幫你總結(jié)資料。但其實(shí)說實(shí)話,很多這種第二手的資料都是有一些問題的。比如說像以前我們?cè)趯W(xué)一個(gè)東西的時(shí)候,在某個(gè)網(wǎng)站上看到了一個(gè)很多人點(diǎn)贊的熱門資料,但其實(shí)他講的東西是有問題的,并不是完全是錯(cuò)的,但如果按照他講的去理解,可能會(huì)誤入歧途。

如何想idea,這里分享我自己的方法,不一定適用所有的人。我覺得只有當(dāng)你排除外界的一些干擾,進(jìn)入到深度思考的時(shí)候,可能才有新的想法出來。如果是隨隨便便就能想到的東西,你能想到別人也能想到,那這個(gè)就不是很出彩,也發(fā)不了很好的會(huì)議和期刊。做實(shí)驗(yàn)這部分,我覺得可能要避免重復(fù)造輪子。這種模塊化和過程的管理非常重要。因?yàn)榭赡苣阕鲋l(fā)現(xiàn)不行,要倒回去,從某一步重來,這時(shí)候沒有過程管理,就會(huì)很影響進(jìn)度。

然后我想說的是,發(fā)表一篇頂會(huì)并不一定說明有科研能力。可能有些剛?cè)腴T的同學(xué)發(fā)了很好的會(huì)議。但實(shí)際上,是導(dǎo)師或?qū)W長學(xué)姐給了一個(gè)明確的idea,然后論文也是導(dǎo)師和學(xué)長花了大精力的。在這個(gè)過程當(dāng)中,其實(shí)這位同學(xué)只做了代碼實(shí)現(xiàn)這一步,就像是完成了一個(gè)很明確的課程作業(yè),最后發(fā)表了論文。這個(gè)其實(shí)不太能說明什么,因?yàn)檎嬲铍y的,我覺得是用什么樣的 idea 而去解決什么樣的問題。


真實(shí)的科研生活是什么樣的?

這里我想分享一些科研工作的真實(shí)情況。比如像剛剛說的,科研流程有選題、設(shè)計(jì)算法模型、實(shí)驗(yàn)驗(yàn)證、論文寫作這四步。但這是理想化的情況,現(xiàn)實(shí)里不太可能一次性從頭走到尾。一般是做了實(shí)驗(yàn),發(fā)現(xiàn)模型不work要去改;或者實(shí)驗(yàn)發(fā)現(xiàn)這個(gè)算法和實(shí)驗(yàn)可能行不通,要全部推倒重來,換一個(gè)題目;也有可能是論文寫了一半,發(fā)現(xiàn)要補(bǔ)某個(gè)實(shí)驗(yàn),或者說這個(gè)模型哪一塊不太嚴(yán)謹(jǐn)。這樣來回往復(fù),都是有可能的。

在做實(shí)際科研工作的時(shí)候,然后也沒有像剛剛說的那么美好,比如經(jīng)常會(huì)遇到這三種情況:實(shí)驗(yàn)一直沒有效果;好不容易做出來了,論文一直被拒;還可能遇到很多負(fù)面的審稿意見。

如果在做科研時(shí)遇到這些情況,我個(gè)人感覺可能有三點(diǎn)需要適當(dāng)注意。

第一點(diǎn)是,科研和做題是有區(qū)別的,前者更關(guān)心啟發(fā)性,后者關(guān)心正確性。因?yàn)楫?dāng)我們?cè)谧隹蒲械臅r(shí)候,其實(shí)有時(shí)候問題并沒有被定的很死,它本身可以很靈活。它并不像我們?nèi)プ鲆粋€(gè)題,或者是公司里做研發(fā),有一個(gè)很明確的任務(wù)要算出一個(gè)正確解或者把某某指標(biāo)提升到多少。相比之下,對(duì)于科研來說,做什么樣的問題,有什么約束條件,什么樣輸入什么輸出,在什么場(chǎng)景下,這些東西都是可變的。對(duì)于發(fā)論文來說,審稿人其實(shí)最關(guān)心往往不是某個(gè)score或者公式,他其實(shí)更關(guān)心的是你的insight,就是說這個(gè)工作能不能照亮別人心中的光,啟發(fā)到更多的人。

第二個(gè),如果論文連環(huán)被拒,但是我們又覺得技術(shù)的部分是做得很好的,那很有可能是忽略了第二個(gè)問題,其實(shí)論文寫作本身是一門與人打交道的藝術(shù),也就是說需要用一種好的方式去呈現(xiàn)技術(shù)內(nèi)容,包括邏輯的嚴(yán)密性,表達(dá)的清晰性和展示性。至少在我們領(lǐng)域,我覺得是 50% 的技術(shù)加 50% 的論文寫作。有的剛?cè)腴T科研的同學(xué)可能只關(guān)注在技術(shù)內(nèi)容上,但忽略了同等重要的論文寫作,然后沒有講清楚工作的價(jià)值和insight。

第三個(gè)不被認(rèn)同其實(shí)是一種常態(tài)。因?yàn)槿绻龀龇浅:玫难芯?,往往是需要去挑?zhàn)現(xiàn)有的方法或者范式,然后講清楚它有什么局限性,新的方法如何解決這些問題的。那肯定就會(huì)受到一部分人的挑戰(zhàn)和質(zhì)疑。這個(gè)時(shí)候其實(shí)非常鍛煉我們跟審稿人的溝通能力,比如怎么樣去理解他真正的concern,怎么以一種委婉的措辭去說服他人。

實(shí)際上,讀博士的狀態(tài)可能就是科研與生活融為了一體,有壓力有挫折,也時(shí)常不被理解。一般就是在投稿ddl之前通常是007工作,但平時(shí)的時(shí)間相對(duì)自由一些。壓力和挫折其實(shí)也是一種心性上的修煉的。這種不被理解,有時(shí)會(huì)很孤獨(dú),不過也可能說明你看到了很多別人沒有看到的東西,然后可以做出一些比較突破性的東西了。



入門AI需要了解的

對(duì)于準(zhǔn)備或者是剛?cè)腴T AI 領(lǐng)域科研的同學(xué),也有些經(jīng)驗(yàn)想和大家分享。

能力提升

首先是知識(shí)儲(chǔ)備上。數(shù)學(xué)中的微積分、線性代數(shù)和概率論,編程中的數(shù)據(jù)結(jié)構(gòu)和算法,這些是一定需要的。當(dāng)你第一次去看論文的時(shí)候,你會(huì)有種感覺好像跟之前沒學(xué)過是一樣的,這是因?yàn)榇髮W(xué)學(xué)的知識(shí)和這些領(lǐng)域的實(shí)際應(yīng)用之間有一些gap。有時(shí)候是一種表達(dá)方式上的不同,而有時(shí)候是因?yàn)楸究频恼n程知識(shí)沒有覆蓋到,比如微積分里面的高維變量微積分,線性代數(shù)里面的SVD、矩陣和向量的求導(dǎo),概率統(tǒng)計(jì)里面可能還有比較復(fù)雜的高等概率論知識(shí)。但這不代表當(dāng)時(shí)學(xué)的不重要,因?yàn)槟切┎粌H是基礎(chǔ)知識(shí),在學(xué)習(xí)過程中也鍛煉了數(shù)學(xué)思維。

還有一些更高階的知識(shí),對(duì)于希望做一些比較深入的研究課題也是很重要的,比如優(yōu)化理論、隨機(jī)過程、矩陣論、信息論、博弈論、泛函分析等等。這些知識(shí)很難在短時(shí)間掌握,我覺得需要保持不斷學(xué)習(xí)、終身學(xué)習(xí)的習(xí)慣。

另外,還有一些軟實(shí)力也比較重要,比如說邏輯思辨的能力、講故事的能力對(duì)寫論文就非常重要,歸納概括、知識(shí)遷移的能力可能對(duì)想idea很重要。還有,現(xiàn)在很多論文投稿都需要rebuttal,就是在第一輪審稿人的意見下來后,你需要寫回復(fù),所以怎么去回應(yīng)別人質(zhì)疑的能力也是非常重要的。

AI科研現(xiàn)狀

接下來是一些目前這個(gè)研究領(lǐng)域的現(xiàn)狀,可以作為給希望入門的同學(xué)一些參考。

目前AI領(lǐng)域的更新十分迅速,研究質(zhì)量也參差不齊,同時(shí)由于傳媒的影響,真正有價(jià)值的不一定是傳播很廣的,名氣大的不一定是真正有大突破的。同時(shí)目前論文的投稿,可能一個(gè)會(huì)議有動(dòng)輒一萬篇投稿量,基本上投稿的作者也是審稿人,分到的審稿人可能并不一定熟悉這個(gè)子領(lǐng)域。這種情況下論文中稿的隨機(jī)性就會(huì)很大。

此外,現(xiàn)在套用現(xiàn)成模型的紅利期也成為了過去式??赡茉趦扇昵埃芏嗾撐亩际窃谀硞€(gè)傳統(tǒng)問題上,用深度學(xué)習(xí)模型去提升模型表達(dá)能力,然后性能也能提上去,然后就可以發(fā)論文了。但是,現(xiàn)在就很難找到這樣的問題,可能更多需要一些底層性的突破。

比如我個(gè)人覺得未來可能會(huì)有突破性的幾個(gè)方向。第一個(gè)我覺得是受限環(huán)境下的學(xué)習(xí)問題。然后第二個(gè)的話是概念表示和認(rèn)知推理,第三個(gè)是機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的基礎(chǔ)理論,第四個(gè)是交叉學(xué)科的應(yīng)用。比如我們實(shí)驗(yàn)室剛中今年NeurIPS的一項(xiàng)工作,利用強(qiáng)化學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)來對(duì)集成電路的布局布線進(jìn)行自動(dòng)化設(shè)計(jì),我覺得就非常有意思。還有我自己目前的研究,從推理的角度來實(shí)現(xiàn)一般化的表示學(xué)習(xí)。



給科研路上同學(xué)的建議

第一個(gè)是我覺得興趣的導(dǎo)向很重要,選擇適合自己的路。因?yàn)榭赡苡械娜颂煨员容^適合做科研,有的人可能比較適合創(chuàng)業(yè)或者去工業(yè)界實(shí)現(xiàn)自己的價(jià)值。

第二點(diǎn),如果選擇了做科研,我覺得多跟其他人交流觀點(diǎn)和心得會(huì)比較重要。因?yàn)閷?duì)于一個(gè)idea來說,除了創(chuàng)新性之外,合理性也很重要。當(dāng)我們把觀點(diǎn)表述出來的時(shí)候,一方面能收到別人的反饋,還有就是在說出來的過程里自己也會(huì)覺察到,有一些不太嚴(yán)謹(jǐn)?shù)牡胤?,或者之前沒有考慮到的,這樣其實(shí)是強(qiáng)化這個(gè)idea的合理性的過程。

第三個(gè),我覺得每個(gè)人都有自己不同的節(jié)奏和選擇,決定權(quán)在自己手里,選擇后不要后悔,找到適合自己的節(jié)奏。

以上就是我的分享,歡迎對(duì)科研有興趣的同學(xué)一起交流,SJTU-Thinklab實(shí)驗(yàn)室常年招收優(yōu)秀本科生,謝謝大家。


吳齊天

上海交通大學(xué) 博士

郵箱:echo740@sjtu.edu.cn

實(shí)驗(yàn)室主頁:https://thinklab.sjtu.edu.cn/


關(guān)于AI科研的真心話的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
龙海市| 荔波县| 霍山县| 奇台县| 色达县| 鄂尔多斯市| 鄂托克旗| 富平县| 临城县| 栾川县| 石棉县| 镇赉县| 南召县| 探索| 新建县| 固原市| 宝清县| 天峨县| 江山市| 颍上县| 慈溪市| 河池市| 广昌县| 庄河市| 方城县| 安顺市| 丰台区| 海原县| 理塘县| 南安市| 罗定市| 堆龙德庆县| 正宁县| 兴和县| 板桥市| 大化| 若尔盖县| 眉山市| 南岸区| 苗栗市| 宁化县|