最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

清華大學(xué)孫茂松:透過喧囂,坐看云起,NLP 的迷思與感悟

2021-09-10 11:48 作者:智源社區(qū)  | 我要投稿

2010年深層神經(jīng)網(wǎng)絡(luò)在語音識別研究方向上取得里程碑式進(jìn)展,以這一事件為新起點(diǎn)和新動能,整個人工智能領(lǐng)域迅速躍遷到深度學(xué)習(xí)時(shí)代,包括自然語言處理(NLP)等關(guān)鍵領(lǐng)域也獲得了長足發(fā)展。

十年間,深度學(xué)習(xí)在NLP的絕大多數(shù)任務(wù)上都取得了明顯的性能水平提升,近年來更是出現(xiàn)了以BERT和GPT3為代表的大規(guī)模預(yù)訓(xùn)練語言模型,成為全球人工智能領(lǐng)域技術(shù)競爭的戰(zhàn)略焦點(diǎn)和熱點(diǎn),甚至引領(lǐng)了一個時(shí)期的潮流。

基于深度學(xué)習(xí)的自然語言處理技術(shù)正沿著“極大數(shù)據(jù)、極大模型、極大算力”的軌道,“無所不用其極”地一路奮進(jìn)。但這條路走到極致,前景又會是怎樣的呢?

放眼看過去,熱熱鬧鬧,“亂花漸欲迷人眼”,但在研究上,以及真正解決問題的深刻程度上,似乎卻仍停留于“淺草才能沒馬蹄”的階段。

清華大學(xué)孫茂松教授在“第六屆語言與智能高峰論壇”的主旨演講中,就此類迷思進(jìn)行探討。智源社區(qū)根據(jù)其報(bào)告,將核心內(nèi)容整理如下,供讀者參考。

報(bào)告人:孫茂松,清華大學(xué)教授,智源研究院NLP重大方向首席科學(xué)家

整理:張虎,牛夢琳

校對:戴一鳴


總基調(diào):深度學(xué)習(xí)讓NLP提升到了一個新的格局

2010年深層神經(jīng)網(wǎng)絡(luò)在語音識別研究方向上取得里程碑式進(jìn)展,以這一事件為新起點(diǎn)和新動能,深度學(xué)習(xí)將NLP提升到了一個新的格局。

深度學(xué)習(xí)將自然語言處理從象牙塔里的理性主義方法中解放了出來,從此可以切實(shí)地應(yīng)用到實(shí)際應(yīng)用中。例如,作為典型的應(yīng)用場景,機(jī)器翻譯行業(yè)得到了快速的發(fā)展?;谏顚由窠?jīng)網(wǎng)絡(luò)的方法比起上一代基于香農(nóng)信息論的統(tǒng)計(jì)機(jī)器翻譯方法,在翻譯效果上有了質(zhì)的飛躍。

本演講將從機(jī)器翻譯出發(fā),來闡釋深度學(xué)習(xí)時(shí)代自然語言處理的進(jìn)展,存在的問題與挑戰(zhàn)以及一些解決方法。


一、基于深度學(xué)習(xí)的機(jī)器翻譯

基于深度學(xué)習(xí)技術(shù)的機(jī)器翻譯技術(shù),比上一代基于香農(nóng)信息論的統(tǒng)計(jì)機(jī)器翻譯方法,在效果上有了顯著提升。

目前相當(dāng)多提供人工翻譯服務(wù)的企業(yè),一般都會先進(jìn)行一輪機(jī)器翻譯,然后再進(jìn)行人工翻譯,這種工作模式會顯著提高翻譯效率和質(zhì)量。但是,從翻譯專家的角度來看(這里引用美國當(dāng)代著名學(xué)者、認(rèn)知科學(xué)家、曾獲普利策非小說獎的《哥德爾、埃舍爾、巴赫:集異璧之大成》作者侯世達(dá)先生對谷歌機(jī)器翻譯效果進(jìn)行測試后說過的一句話):“機(jī)器翻譯反映的是企業(yè)的目標(biāo),而不是哲學(xué)的目標(biāo)”。


由于基于深度學(xué)習(xí)的機(jī)器翻譯方法沒有對語義信息進(jìn)行深層次的理解,所以當(dāng)前的翻譯質(zhì)量只能達(dá)到差強(qiáng)人意的程度。100多年前嚴(yán)復(fù)先生在《天演論》“譯例言”中講到“譯事三難:信、達(dá)、雅”三個翻譯境界,而現(xiàn)在機(jī)器翻譯的追求目標(biāo)還僅停留在“信”這個層次,與“雅”這個層次相差甚遠(yuǎn)。

下面,針對三大企業(yè)提供的機(jī)器翻譯服務(wù),對當(dāng)前基于深度學(xué)習(xí)的機(jī)器翻譯技術(shù)進(jìn)行案例觀察:

首先,隨機(jī)選取對奧運(yùn)選手蘇炳添的報(bào)導(dǎo)中的一段文字,分別在Google翻譯,百度翻譯,搜狗翻譯三個平臺上進(jìn)行中譯英的開放測試。盡管三者在模型上有差異,但都能基本正確翻譯整段文字,對于長難句中的連詞翻譯也比較準(zhǔn)確,基本做到了“信、達(dá)、雅”中的“信”字,這體現(xiàn)了深度學(xué)習(xí)的威力。對這段文字,搜狗翻譯得相對最好,不妨以之體會一下機(jī)器翻譯目前達(dá)到的水平:


但美中不足的是,其中個別較難的問題還是沒有處理好。如三個翻譯平臺都將“唯二”一詞錯誤翻譯成了“only”。估計(jì)翻譯模型在訓(xùn)練語料中沒怎么見過“唯二”的譯法,所以只好找到了最接近的詞語“唯一”,譯成“only”。

再試另一個難的例句:“我家門前的小河很難過”,三個平臺都把“難過”一詞錯誤地翻譯成了“sad”。

最后觀察一下世界機(jī)器翻譯研究先驅(qū)Yehoshua Bar-Hillel在其1960年發(fā)表的關(guān)于機(jī)器翻譯發(fā)展前景判斷的著名文章中給出的、貌似非常簡單的經(jīng)典翻譯難句:“The box was in the pen”,這三個平臺都錯誤地翻譯成“盒子在鋼筆里”。在現(xiàn)實(shí)世界中,pen其實(shí)有兩個含義,一是鋼筆,二是圍欄。要譯對這個詞,機(jī)器需要知道box與pen的大小關(guān)系,以及介詞in的意思等深層次語義信息。這涉及到無所不包的世界知識。


從上面若干案例分析中可以看到:機(jī)器翻譯需要語義知識乃至世界知識的系統(tǒng)性介入才有可能處理好比較難難的翻譯,全自動高質(zhì)量的機(jī)器翻譯,目前還做不到?;谏疃葘W(xué)習(xí)技術(shù)的自然語言處理任務(wù),主要還是利用極大規(guī)模語料庫,目前并沒有找到一個較好的方法解決自然語言處理中的深層語義理解問題。

上一代基于理性主義的方法,試圖在人工構(gòu)造語法規(guī)則集、語義形式化嚴(yán)重不足的條件下解決翻譯問題,這種做法已被實(shí)踐驗(yàn)證基本行不通;而現(xiàn)有的深層神經(jīng)網(wǎng)絡(luò)主要依賴“生”的雙語語料庫,試圖從語料里發(fā)現(xiàn)某種對應(yīng)關(guān)系或關(guān)聯(lián)規(guī)則,而不去做深度的語義分析——這也是深度學(xué)習(xí)的最大優(yōu)勢。

然而,正所謂“成也蕭何,敗也蕭何”,利用深度學(xué)習(xí)的方法來完成機(jī)器翻譯,從本質(zhì)上來講,它并沒有真正從深層次語義角度出發(fā)來理解這句話。這是它與生俱來的“阿克琉斯之踵”:它不會有意識地利用語義信息,對于未曾遇見的詞語,通常會自動選擇一個它見過的“形似”詞語來猜測,碰到?jīng)]有見過的更復(fù)雜的語義現(xiàn)象,只能撞大運(yùn)亂猜。

當(dāng)前機(jī)器翻譯遇到的“窘境”是可利用的系統(tǒng)性世界知識嚴(yán)重不足,同時(shí)缺乏語義分析有效手段。

二、大規(guī)模預(yù)訓(xùn)練語言模型

從早期的機(jī)器翻譯,到現(xiàn)在以BERT和GPT-3為代表的大規(guī)模預(yù)訓(xùn)練語言模型,基于深度學(xué)習(xí)的自然語言處理技術(shù),已成為了世界范圍內(nèi)整個人工智能領(lǐng)域技術(shù)競爭的戰(zhàn)略焦點(diǎn)和熱點(diǎn),它也正沿著“極大數(shù)據(jù)、極大模型、極大算力”的軌道,“無所不用其極”地一路奮進(jìn)。

毫無疑問,大規(guī)模預(yù)訓(xùn)練語言模型,是一種非常重要的語言信息公共基礎(chǔ)資源。隨著深度學(xué)習(xí)的發(fā)展,當(dāng)前無論學(xué)術(shù)界還是工業(yè)界都需要這樣一個公共基礎(chǔ)資源。它的最大好處是可以把互聯(lián)網(wǎng)上所有的語言信息關(guān)聯(lián)起來,使得我們在處理具體任務(wù)時(shí),不會基于“一片荒原”,而是基于四面八方已經(jīng)經(jīng)過初步耕耘的土地。這個工作無疑是十分重要的,其作用具有普適性和不可或缺性。

同時(shí)我們也要注意到,大規(guī)模預(yù)訓(xùn)練語言模型“包容萬象”,實(shí)質(zhì)上是一種“泛讀”,類似“萬金油”,所以應(yīng)該會存在“泛而不精”的不足,雖然對每一種語言處理具體任務(wù)都有作用,但使用起來的實(shí)際效果可能會“霧里看花”,不一定很理想。

盡管不少論文號稱通過few-shot便可以實(shí)現(xiàn)模型遷移,但相信利用一個專門針對具體任務(wù)的一定規(guī)模的訓(xùn)練數(shù)據(jù)集在大規(guī)模預(yù)訓(xùn)練語言模型上做精調(diào),實(shí)際效果應(yīng)該會更好。

這里面還有若干不太清楚的問題,需要通過研究搞清楚,比如,那些與某個具體任務(wù)毫不相干的語料(可以設(shè)想這部分語料比相干語料的規(guī)模會大很多倍)一股腦地被拿來訓(xùn)練大規(guī)模預(yù)訓(xùn)練語言模型,是否劃算(消耗或占用了太多的各類算力資源)?會不會引入了過多噪音而使針對具體任務(wù)的系統(tǒng)性能明顯下降呢?


大規(guī)模預(yù)訓(xùn)練語言模型當(dāng)前面臨著一個最大問題是:規(guī)模(指數(shù)據(jù)、模型、算力)的極致化能走多遠(yuǎn)?很多著名機(jī)構(gòu),如百度、北京智源人工智能研究院等,都在努力將規(guī)模推到極致,從工程角度來看,極致化是有現(xiàn)實(shí)意義的。其實(shí)只需有一個這樣的模型,如果大家都可以用,就可以了,不必誰都搞一個。

但同時(shí)也有不少學(xué)者對規(guī)模極致化的科學(xué)意義提出了質(zhì)疑。從研究角度來看,極致化到底能走多遠(yuǎn)是一個問號。人們或許期待量變能引起質(zhì)變,但是,量變引起質(zhì)變的前提是需要模型內(nèi)部存在合理的結(jié)構(gòu)或機(jī)制作為支撐。否則好比對牛彈琴,無論彈多久,牛也不能聽懂音樂。大規(guī)模預(yù)訓(xùn)練語言模型很可能會遇到這種瓶頸,量變到相當(dāng)程度后,其性能增益的趨勢將會趨向平緩。

對于目前的大規(guī)模預(yù)訓(xùn)練語言模型,如GPT-3,雖然已經(jīng)引入了近乎人類所有的文本,但對語義的控制能力實(shí)際上還是很不足的,如這里給出某個典型大規(guī)模預(yù)訓(xùn)練語言模型生成的一組句子:輸入“沿著人滿為患的山間小徑一路走去,未見”,模型會續(xù)以“任何人”。這反映了大規(guī)模預(yù)訓(xùn)練語言模型的本質(zhì)缺陷。

語義控制能力不足會導(dǎo)致模型生成的文本顯得絮絮叨叨的(尤其是生成長文本),語言邏輯關(guān)系似是而非,經(jīng)不起稍加推敲?;贕PT-3的文本生成模型依然免不了被人們稱為“統(tǒng)計(jì)鸚鵡”。



大規(guī)模預(yù)訓(xùn)練語言模型需要克服的主要挑戰(zhàn)與機(jī)器翻譯“窘境”是完全一樣的:可利用的系統(tǒng)性世界知識嚴(yán)重不足,同時(shí)缺乏語義分析有效手段。

三、總結(jié)

縱觀自然語言處理的發(fā)展現(xiàn)狀中,放眼望去,似乎熱熱鬧鬧,各種技術(shù)層出不窮,頗有“亂花漸欲迷人眼”之勢,但在科學(xué)研究的深刻程度上,依舊停留于“淺草才能沒馬蹄”的境地。深層神經(jīng)網(wǎng)絡(luò)在自然語言處理上的“阿克琉斯之踵”——大規(guī)模語義和世界知識的建設(shè)及運(yùn)用難題有待破解。

自然語言處理目前或正處于一種“行到水窮處”的階段。這也是下一代深度學(xué)習(xí)發(fā)展的歷史性節(jié)點(diǎn)。此時(shí)應(yīng)該保持一種“坐看云起時(shí)”的態(tài)度,要通過提高研究的理論高度和深刻性來積極摸索破局的辦法,以期可以走得更遠(yuǎn)。


清華大學(xué)孫茂松:透過喧囂,坐看云起,NLP 的迷思與感悟的評論 (共 條)

分享到微博請遵守國家法律
双鸭山市| 从江县| 攀枝花市| 邛崃市| 山阴县| 台山市| 民丰县| 棋牌| 临沧市| 淄博市| 西丰县| 芦山县| 罗平县| 沙雅县| 定边县| 三河市| 库伦旗| 兴城市| 拉萨市| 鄱阳县| 河源市| 陆河县| 卫辉市| 宣城市| 贺州市| 那坡县| 福建省| 安义县| 吉木萨尔县| 汝州市| 鄂托克旗| 六安市| 荣昌县| 哈巴河县| 青田县| 吉木萨尔县| 宁乡县| 阳春市| 娱乐| 松滋市| 徐水县|