最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

初入NLP領(lǐng)域的一些小建議

2023-05-16 11:04 作者:人工智能前沿講習(xí)  | 我要投稿

當(dāng)你初入江湖,迷茫不知道該干什么的時(shí)候,不妨去模仿前人是如何進(jìn)行科研的,并從中歸納出最適合自己的道路。為此,我們推出“學(xué)術(shù)人生”專欄,介紹科研的方法與經(jīng)驗(yàn),為你的科研學(xué)習(xí)提供幫助,敬請(qǐng)關(guān)注。

最近在跟同學(xué)的郵件、或者知乎留言中的交流中,不少同學(xué)尤其是剛?cè)耄╦in)門(keng)的同學(xué),提到了深度學(xué)習(xí)背景下做NLP科研的很多迷茫?;究梢詺w納為如下幾點(diǎn):如今一個(gè)模型,幾十行TensorFlow或者PyTorch就可以解決掉,大家不厭其煩地刷數(shù)據(jù)集的benchmark,但是因?yàn)槿缃駥?shí)現(xiàn)模型的門檻低一些,SOTA很難再刷的上去;就算好不容易刷上去了,因?yàn)槟P颓宦蔁o非修修補(bǔ)補(bǔ),文章投出去了因?yàn)閚ovelty 受限,文章中不中看天;即便是文章中了,似乎并無太大新意,灌水中已然迷茫。

深度算法的風(fēng)靡會(huì)讓研究者過度關(guān)心這些算法本身,而層出不窮模型結(jié)構(gòu)的調(diào)整和改進(jìn)又讓我們眼花撩亂。當(dāng)侃侃而談深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)變成一個(gè)很cool的事情的時(shí)候,人們的虛榮心會(huì)使得不約而同地忽略了幾個(gè)重要點(diǎn)?;谖易约憾嗄陙碓?jīng)走過的彎路,踩過的坑,這篇文章做一點(diǎn)點(diǎn)小的總結(jié)。希望會(huì)對(duì)剛剛進(jìn)入NLP領(lǐng)域的同學(xué)有所幫助。

1、了解NLP的最基本知識(shí):Jurafsky和Martin的Speech and Language Processing是領(lǐng)域內(nèi)的經(jīng)典教材,里面包含了NLP的基礎(chǔ)知識(shí)、語言學(xué)掃盲知識(shí)、基本任務(wù)以及解決思路。閱讀此書會(huì)接觸到很多NLP的最基本任務(wù)和知識(shí),比如tagging, 各種parsing,coreference, semantic role labeling等等等等。這對(duì)于全局地了解NLP領(lǐng)域有著極其重要的意義。書里面的知識(shí)并不需要爛熟于心,但是刷上一兩遍,起碼對(duì)于NLP任務(wù)有基本認(rèn)識(shí),下次遇到了知道去哪里找還是非常有意義的。另外 Chris Manning 的 introduction to information retrieval 也是一本可以掃一下盲的書,當(dāng)然我認(rèn)為依然不需要記住所有細(xì)節(jié),但輪廓需要了解。IR里面的很多基本算法跟NLP有不少的重合。說說我自己曾經(jīng)走過的彎路。Stanford NLP的qualification考試的一部分就是選一些jurafsky 和 manning書里面的一些chapter來讀,然后老師來問相關(guān)問題。開始我一直對(duì)里面的東西懶得看,所以qualification考試一拖再拖。但博士最后一年沒辦法拖的時(shí)候,才發(fā)現(xiàn)如果早知道這些東西,博士早年可以少走很多彎路。

為什么了解NLP基礎(chǔ)知識(shí)的重要,我給大家舉幾個(gè)例子。
最近跟同學(xué)一起做語言模型 language modeling相關(guān)的事情,很多同學(xué)用LSTM或者transformers做language model隨手就能實(shí)現(xiàn),但是實(shí)現(xiàn)一個(gè) bigram 或者 trigram的language model(LM)卻因?yàn)槔锩娴腛OV的平滑問題卡了大半天(熟悉的同學(xué)可能知道,需要拉普拉斯平滑或者更sophisticated的Kneser-Ney平滑)。為什么bigram 或者 trigram的LM很重要呢?去做一個(gè)語言模型的問題,實(shí)現(xiàn)深度模型之前,第一步其實(shí)就要去寫一個(gè) bigram 或者 trigram的LM。為什么呢? 因?yàn)檫@些N-gram模型實(shí)現(xiàn)簡(jiǎn)單,并且robust。通過這樣簡(jiǎn)單的實(shí)現(xiàn),可以告訴你這個(gè)數(shù)據(jù)集的LM模型的下限。這樣我們心里會(huì)有數(shù),神經(jīng)網(wǎng)絡(luò)模型至少不應(yīng)該比這個(gè)模型差的。神經(jīng)網(wǎng)絡(luò)模型因?yàn)槠涑瑓?shù)、梯度爆炸等問題,有時(shí)候我們不太容易決定是真的模型不行、參數(shù)沒調(diào)好還是代碼有bug。那么通過N-gram LM的給出的下限,我們就可以直觀地知道神經(jīng)網(wǎng)絡(luò)是有bug還是沒調(diào)好參數(shù)。

第二個(gè)例子就是涉及發(fā)文章了,不知道有沒有同學(xué)想過,BERT里面訓(xùn)練LM的隨機(jī)替換為什么就使結(jié)果變好,隨機(jī)替換是什么鬼,怎么結(jié)果就好了。其實(shí)在BERT之前,斯坦福的吳恩達(dá)組的Ziang Xie的 Data Noising as Smoothing in Neural Network Language Models ICLR2017(https://arxiv.org/pdf/1703.02573.pdf) 就首次提出了此方法,而且給出了理論解釋。這種random替換其實(shí)本質(zhì)上屬于language modeling里面基于interpolation的平滑方式, 而基于interpolation的LM平滑,就躺在jurafsky那本書的第3.4.3節(jié)。

2.?了解早年經(jīng)典的NLP模型以及論文:相比簡(jiǎn)單粗暴的神經(jīng)網(wǎng)絡(luò)模型,早年的NLP算法確實(shí)比較繁瑣復(fù)雜,但里面確實(shí)有很多早年學(xué)者在硬件條件艱苦情況下的智慧結(jié)晶。熟悉了這些模型,可以在現(xiàn)在神經(jīng)網(wǎng)絡(luò)里面融會(huì)貫通。去年在人民大學(xué)做seminar。Seminar有大概30-40位同學(xué)參加。Seminar中,我問了一個(gè)問題,有誰知道機(jī)器翻譯中的IBM模型大概是干嘛的,舉手的同學(xué)大概有五分之一。我再問,誰能來手寫(或者大概手寫)一下IBM model1,一個(gè)人都沒有。僅僅從基于IBM模型的Hierarchical Phrase-based MT, 近幾年就有很多篇引用量很高的文章是基于里面的思想的。例子數(shù)不勝數(shù):?
1) chris dyer 組的https://arxiv.org/abs/1601.01085(NAACL16) 提出用雙向attention做neural機(jī)器翻譯的約束項(xiàng),意思是如果在英語翻譯法語生成的target中的一個(gè)法語詞attend到了一個(gè)source中的英語詞,那么反過來,法語翻譯英文 target中相同這個(gè)英語詞應(yīng)該也attend到source中的這個(gè)英語詞。其實(shí)這個(gè)思想就是完完全全相似 Percy Liang 曾經(jīng)的成名作之一,早在NAACL06年 Alignment by Agreement,大家通過題目的意思就可以猜到文章的內(nèi)容,正向翻譯與反向翻譯中的 對(duì)齊(alignment) 要 一致(agree)。如今做neural MT的同學(xué),有多少同學(xué)讀過Percy的這篇大作呢 (大家知道Percy最多的應(yīng)該是Squad吧)。

2) 處理對(duì)話系統(tǒng)的無聊回復(fù),用反向概率p(source|target)做reranking現(xiàn)在應(yīng)該已經(jīng)是標(biāo)配。再比如Rico Sennrich的成名作之一將Monolingual data 跟seq2seq 模型結(jié)合。其實(shí)這連個(gè)思想在phrase-base MT 里面早就被廣發(fā)的使用。Neural之前的MT,需要對(duì)一個(gè)大的N-best list用MERT做 reranking, 反向概率 p(source|target) 以及語言模型概率 p(target)是reranking中feature的標(biāo)配。

3) Harvard NLP組, Sam Wiseman 和Alex 發(fā)表的EMNLP16 best paper runner-up, Sequence-to-Sequence Learning as Beam-Search Optimization, 基本上傳承了Daume′ III and Daniel Marcu 2005年的 LaSO模型,將其思想adapt到neural里面。

如果再準(zhǔn)本溯源,誕生于neural MT的attention,不就是IBM模型的神經(jīng)網(wǎng)絡(luò)版本嘛。

3.?了解機(jī)器學(xué)習(xí)的基本模型:神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單暴力并且有效。但是從科研的角度講,熟悉基本的機(jī)器學(xué)習(xí)算法是必修課。比如吳恩達(dá)的 machine learning就是必要之選。記得前段時(shí)間我面試一個(gè)小伙子,一看就是很聰明的同學(xué),而且很短的時(shí)間就有一篇NAACL在投。我就問小伙子,EM算法是什么,小伙子說沒有聽說過EM,而且自己的科研也用不到EM。我認(rèn)為這其實(shí)是一個(gè)挺大的誤區(qū)。當(dāng)我想起我自己,曾經(jīng)就吃過很多類似的虧。因?yàn)樵缙跀?shù)學(xué)基礎(chǔ)偏弱,也沒有決心惡補(bǔ)一下數(shù)學(xué),所以早年每次看到跟variational inference相關(guān)的算法就頭大,這種偏科持續(xù)了很久,限制了科研的廣度。相比粗暴的神經(jīng)網(wǎng)絡(luò),CRF等模型的inference確實(shí)相對(duì)復(fù)雜(當(dāng)年我自己也看了很多次才徹底搞明白)。但搞懂這些,是一個(gè)NLP researcher的基本素養(yǎng)。Pattern Recognition and Machine Learning那本書,尤其是某些小節(jié)確實(shí)比較難(又暴露了數(shù)學(xué)基礎(chǔ)差的事實(shí)),即便是只是為了過一遍,也需要很強(qiáng)的耐力才能看完,更不用說完全看懂了。我自己也曾經(jīng)半途而廢很多次,如今依然有很多章節(jié)是不太懂的。但是其中的很多基礎(chǔ)chapter,我認(rèn)為還是很值得一讀的。其實(shí)可以組成那種兩三個(gè)人的學(xué)習(xí)小組,不需要有太雄偉的目標(biāo),用個(gè)一年哪怕兩年的時(shí)間,把幾個(gè)重要的chapter 過一遍。

NLP相對(duì)是應(yīng)用科學(xué),并不是特別的數(shù)學(xué)。但是我們天天用的算法的基本數(shù)學(xué)邏輯我認(rèn)為還是需要搞懂,比如dropout, 比如天天用到的優(yōu)化(SGD, momentum, adaboost, adagrad),比如各種 batch, layer normalization。這樣其實(shí)可以省去很多浪費(fèi)的時(shí)間,磨刀不誤砍柴工。這些年來,在幫同學(xué)調(diào)bug的過程中,我至少遇見過3-5個(gè)同學(xué) training 的時(shí)候開dropout, test 的時(shí)候沒有對(duì)每個(gè)cell用 (1-dropout)去 scale (大家不要笑,這是真的)。然后畫出dropout曲線就是 dropout 值越大,結(jié)果越差。在討論的時(shí)候,同學(xué)一臉茫然并且不清楚test時(shí)候需要scale。其實(shí)本質(zhì)就是并不了解dropout背后的數(shù)學(xué)原理。

4. 多看NLP其他子領(lǐng)域的論文:NLP有很多子領(lǐng)域,MT,信息抽取,parsing,tagging,情感分析,MRC等等。多多熟悉其他子領(lǐng)域的進(jìn)展是必要的。其實(shí)不同子領(lǐng)域所運(yùn)用的模型不會(huì)相差太大。但是最開始看不熟悉領(lǐng)域的問題可能會(huì)有一點(diǎn)難,原因是對(duì)問題的formalization不是很了解。這可能就需要多花一些時(shí)間,多找懂的同學(xué)去問。其實(shí)了解不同問題的formalization也是對(duì)領(lǐng)域知識(shí)最好的擴(kuò)充。

4. 了解 CV和data mining領(lǐng)域的基本重大進(jìn)展:當(dāng)熟悉了上面所說的點(diǎn)之后(當(dāng)然可能至少也需要一年的時(shí)間)。熟悉CV領(lǐng)域的基本任務(wù)、基本算法我認(rèn)為對(duì)于打開科研視野很重要。但是不可否認(rèn),因?yàn)轭I(lǐng)域不用,寫作風(fēng)格、術(shù)語表達(dá)相差很大,又因?yàn)槿狈Ρ尘爸R(shí)(文章中會(huì)省略一些基礎(chǔ)知識(shí),默認(rèn)大家都懂。但是跨領(lǐng)域的人可能不懂),第一次想讀懂跨領(lǐng)域的文章其實(shí)并不容易。我就出現(xiàn)過竟然在討論班上直接把faster-RCNN講錯(cuò)了的情況,以為自己看懂了,然后就講錯(cuò)了(至今昱先天天還在因?yàn)檫@個(gè)事情調(diào)侃我)。不過重要的是,NLP領(lǐng)域里面一些重要的文章其實(shí)或多或少借鑒了CV里面的思想,當(dāng)然也同樣出現(xiàn)CV借鑒NLP的情況。NLP神經(jīng)網(wǎng)絡(luò)可視化、可解釋性的研究,時(shí)間上還是落后于CV里面對(duì)CNN的可視化。所以很多工作大量借鑒了CV里面的類似工作。NLP運(yùn)用GAN其實(shí)也是借鑒CV的。其實(shí)兩個(gè)領(lǐng)域很多是很相通的。比如,如果不考慮question query, vision里面detection中的 region proposal(在一個(gè)大的圖片背景下找一個(gè)特定區(qū)域), 大家想是不是跟MRC里面的 span extraction (在一大堆文字里面找一個(gè)span)有異曲同工之妙。更不用說image caption generation與sequence-to-sequence模型了,本質(zhì)上幾乎沒什么太大的區(qū)別。強(qiáng)化學(xué)習(xí)在生成領(lǐng)域generation,發(fā)完了MT(Ranzato et al., ICLR2016)再發(fā) image caption generation, 再回到summarization. Actor-critic 模型也是類似的,還是很多做generation diversity的文章。因?yàn)榭珙I(lǐng)域不好懂,所以第一次推薦看tutorial, 如果有 sudo code 的tutorial那就更好了。另外看看掃盲課的視頻,比如Stanford CS231n也是個(gè)好辦法。另外,一個(gè)NLP組里面有一個(gè)很懂CV的人也很重要(拜謝昱先), and vise versa。?
graph embedding近兩年崛起于data mining領(lǐng)域。目測(cè)會(huì)在(或者已經(jīng)在)NLP的不少任務(wù)得到廣泛應(yīng)用。想到幾年前,deep walk借鑒了word2vec, 開始在data mining領(lǐng)域發(fā)跡,然后似乎又要輪轉(zhuǎn)回NLP了。
當(dāng)然啦如何寫論文也是極其重要的一環(huán),但不是這篇文章的主題,強(qiáng)烈推薦清華大學(xué)劉知遠(yuǎn)老師的相關(guān)文章:https://zhuanlan.zhihu.com/p/58752815

先寫到這兒,歡迎大家補(bǔ)充拍磚。


來源:知乎-李紀(jì)為


初入NLP領(lǐng)域的一些小建議的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
石狮市| 通海县| 无为县| 麻栗坡县| 桦甸市| 兴业县| 清丰县| 灵台县| 肃南| 民勤县| 林芝县| 文昌市| 确山县| 清流县| 万山特区| 麟游县| 安仁县| 南汇区| 棋牌| 叙永县| 永康市| 军事| 封开县| 永安市| 隆德县| 临清市| 东阳市| 舞阳县| 巍山| 沾化县| 特克斯县| 无棣县| 三门峡市| 苗栗市| 乾安县| 敦化市| 彰武县| 郧西县| 延寿县| 建昌县| 万源市|