最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GPT時(shí)代,機(jī)器翻譯需要的新數(shù)據(jù)和新技能

2023-08-03 17:25 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿

不久前,火山翻譯團(tuán)隊(duì)聯(lián)合上外語(yǔ)料庫(kù)研究院舉辦了“語(yǔ)言數(shù)據(jù)科學(xué)與應(yīng)用”系列講座,邀請(qǐng)到算法工程師朱耀明同學(xué)進(jìn)行以“GPT時(shí)代,機(jī)器翻譯需要的新數(shù)據(jù)和新技能”為題的分享。


講座期間,朱耀明同學(xué)給現(xiàn)場(chǎng)聽(tīng)眾科普了機(jī)器翻譯算法的基本原理,向大家介紹機(jī)器翻譯需要什么樣的數(shù)據(jù),演講稿原文整理如下,希望大家看完能有所收獲。


快速了解演講內(nèi)容:

  • 了解(現(xiàn)在的)工業(yè)級(jí)機(jī)器翻譯算法基本原理

  • 從算法工程的視角理解機(jī)器翻譯需要怎樣的數(shù)據(jù)

  • 知曉(未來(lái))大語(yǔ)言模型將如何影響多語(yǔ)言

  • 站在大語(yǔ)言模型的肩膀上的展望


講座之前,我先給大家講一講可以在這次分享中收獲什么。我本身是算法出身,可以幫助大家了解一下現(xiàn)在的工業(yè)級(jí)機(jī)器翻譯算法的基本原理。之前了解到很多同學(xué)是有一些“語(yǔ)言模型”的背景的,所以這一塊可能會(huì)簡(jiǎn)略一點(diǎn)。第二部分,我會(huì)從算法工程師的視角講一講機(jī)器翻譯需要怎樣的數(shù)據(jù),如何去挖掘等。在第三部分,我會(huì)介紹一下最近橫空出世的 ChatGPT,闡述大語(yǔ)言模型將會(huì)給多語(yǔ)言相關(guān)的 NLP 技術(shù)帶來(lái)什么影響。最后是一個(gè)展望,站在大語(yǔ)言模型的肩膀上展望語(yǔ)言處理工作者會(huì)有什么新的研究方向和發(fā)展。


| 快速入門:機(jī)器翻譯基礎(chǔ)



很多同學(xué)應(yīng)該都知道語(yǔ)言模型是機(jī)器翻譯的骨架,語(yǔ)言模型的本質(zhì)是預(yù)測(cè)下一個(gè)詞是什么。每一次語(yǔ)言模型會(huì)從一個(gè)詞或者一個(gè)字開(kāi)始,迭代預(yù)測(cè)下一個(gè)單詞,然后加入到自己的輸入里面,最后生成一個(gè)完整的句子。



語(yǔ)言模型可以生成句子,但如果是機(jī)器翻譯的話,我們不能憑空生成這樣一個(gè)句子。我們可能要提供一個(gè)輸入,才能生成一個(gè)對(duì)應(yīng)的英文。



關(guān)于輸入,我們會(huì)引入一個(gè)叫做Seq2Seq(Sequence-to-Sequence)的架構(gòu),這種模型其實(shí)就像小時(shí)候我們用的有線電話:你的聲音進(jìn)入電話的線圈,聲波轉(zhuǎn)換成電信號(hào),然后傳播到別人的線圈,最后再出來(lái)成為聲波。大概可以理解成這樣的編碼解碼組。



機(jī)器翻譯也可以使用類似的方法,我們?cè)O(shè)置一個(gè)編碼器,把編碼器的內(nèi)容發(fā)送進(jìn)去之后成為一段編碼的信號(hào),然后傳遞出來(lái)一個(gè)可以解碼的信號(hào),再變成翻譯所需要的語(yǔ)言。這里應(yīng)該是一段德語(yǔ),會(huì)德語(yǔ)的同學(xué)可以看翻譯的對(duì)不對(duì)——可以,但不太對(duì)?沒(méi)錯(cuò)這就是機(jī)器翻譯目前的情況:可以翻譯,但不會(huì)太對(duì)。



目前主流的機(jī)器翻譯都是人工神經(jīng)網(wǎng)絡(luò),他里面是由大量的人工神經(jīng)元組成的,類似于人腦的信號(hào),每個(gè)神經(jīng)元相當(dāng)于接收一個(gè)信號(hào)輸入,然后轉(zhuǎn)換成一個(gè)信號(hào)輸出,他通過(guò)大量數(shù)據(jù)自動(dòng)學(xué)習(xí)數(shù)據(jù)的輸入和輸出最后得到一個(gè)結(jié)果。



我們知道有這么一個(gè)輸入輸出的結(jié)構(gòu)之后,還需要思考怎么把數(shù)據(jù)給輸進(jìn)去,在這里會(huì)有一個(gè)叫詞嵌入向量的概念??梢园岩粋€(gè)詞轉(zhuǎn)換成一個(gè)點(diǎn)或者一個(gè)向量,這樣一個(gè)詞編碼就會(huì)把一個(gè)詞轉(zhuǎn)換成一個(gè)點(diǎn)。詞向量本身也是一個(gè)神經(jīng)網(wǎng)絡(luò),但是有一些特征,是通過(guò)大量數(shù)據(jù)學(xué)習(xí)得到的,比如queen到woman的距離大致上等于king到man的距離。



綜上所述,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的原理大致上可以用這張圖表示。這張圖看起來(lái)十分的復(fù)雜,其實(shí)拆解一下前面的幾個(gè)小模塊就能理解。



| 機(jī)器翻譯需要什么樣的數(shù)據(jù)

現(xiàn)在機(jī)器翻譯需要什么樣的輸入呢?前面提到了神經(jīng)網(wǎng)絡(luò)天然從數(shù)據(jù)里面學(xué)習(xí),只要給他足夠多的數(shù)據(jù),他就可以學(xué)習(xí)數(shù)據(jù)之間的關(guān)系。只要有足夠多的中文到英語(yǔ)的平行語(yǔ)料,只要見(jiàn)得夠多,他就可以翻譯出來(lái)。



在我們神經(jīng)網(wǎng)絡(luò)里有個(gè)很經(jīng)典的 Log-Linear Scaling Law,聽(tīng)起來(lái)很唬人,其實(shí)簡(jiǎn)單來(lái)說(shuō),就是數(shù)據(jù)和模型大小翻十倍左右,不管是什么指標(biāo),比如人工評(píng)測(cè)等效果都會(huì)增加差不多兩個(gè)點(diǎn),再翻十倍,可能也是再增加兩個(gè)點(diǎn)。



這個(gè)規(guī)律只要在語(yǔ)言任務(wù)里不管對(duì)什么都是生效的。根據(jù)經(jīng)驗(yàn)來(lái)講,如果要評(píng)價(jià)翻譯的效果就是從兩個(gè)方面入手,可以把數(shù)據(jù)擴(kuò)大或者模型大小擴(kuò)大。



當(dāng)然也有后面數(shù)據(jù)量足夠大了之后,達(dá)到一個(gè)上限的情況。所以工業(yè)界的機(jī)器翻譯首先需要的就是海量的數(shù)據(jù)。那么海量的數(shù)據(jù)從哪里來(lái)呢?下面這個(gè)網(wǎng)站是一個(gè)公開(kāi)的國(guó)外大學(xué)做的語(yǔ)料庫(kù),把一些其他公開(kāi)網(wǎng)站的數(shù)據(jù)進(jìn)行了整理、清洗。比如歐洲議會(huì)的文件材料,本來(lái)就有多語(yǔ)言的版本,是一個(gè)天然的多語(yǔ)言語(yǔ)料,就可能會(huì)被收集過(guò)來(lái)。再比如一些國(guó)外的字幕網(wǎng)站,比如新上映的蜘蛛俠的電影,就會(huì)有各個(gè)國(guó)家的字幕,那可能這些字幕信息就會(huì)被收集起來(lái),也作為多語(yǔ)言語(yǔ)料的數(shù)據(jù),總體體量還是非常大的。





生活中還有很多天然的多語(yǔ)言語(yǔ)料,比如菜單。


還有一部分?jǐn)?shù)據(jù)科學(xué)家收集一些網(wǎng)站里面的雙語(yǔ),通過(guò)一些過(guò)濾的手段把里面的數(shù)據(jù)收集出來(lái)。在新浪微博、推特上也能收集到一些語(yǔ)料,大家可以看到這些數(shù)據(jù)可能比較臟,但是體量特別大。




前面講到了通過(guò)數(shù)據(jù)積累來(lái)提升機(jī)器翻譯效果,下面我們來(lái)提一提神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯學(xué)習(xí)本質(zhì)在學(xué)什么。一個(gè)是在學(xué)目標(biāo)語(yǔ)言和源語(yǔ)言之間的共現(xiàn)信息,比如英語(yǔ)的apple和蘋果經(jīng)常一起出現(xiàn),就會(huì)被學(xué)下來(lái),像內(nèi)部生成了一本詞典;另一個(gè)是語(yǔ)言預(yù)測(cè),生成流暢的合理的句子。其實(shí)神經(jīng)網(wǎng)絡(luò)是在學(xué)這兩個(gè)方面的信息,這兩方面的信息就比較需要優(yōu)秀的高質(zhì)量數(shù)據(jù),高質(zhì)量數(shù)據(jù)又會(huì)涉及到一個(gè)標(biāo)注的過(guò)程。



有文檔以后,一個(gè)譯員翻譯出結(jié)果,獲取這個(gè)結(jié)果之后要經(jīng)過(guò)兩方面的檢查,一方面是自動(dòng)化的檢查,另一方面是具體的人工檢測(cè)、譯后編輯的方法來(lái)進(jìn)行語(yǔ)言標(biāo)準(zhǔn)相關(guān)的檢查。最后再把檢查好的數(shù)據(jù)放入語(yǔ)料庫(kù),起到提升語(yǔ)料庫(kù)質(zhì)量的效果,這個(gè)就叫做標(biāo)注工程。


這就涉及兩方面,一個(gè)是質(zhì)量、一個(gè)是數(shù)量,如果質(zhì)量好,可能語(yǔ)料的數(shù)量就下去了。如果追求數(shù)量的話,比如去微博等平臺(tái)獲取,那質(zhì)量就比較難說(shuō)了。所以很難實(shí)現(xiàn)兩者之間的一個(gè)trade-off。



其實(shí)對(duì)于我們工業(yè)界,數(shù)量還是會(huì)更重要一點(diǎn),尤其是對(duì)于訓(xùn)練語(yǔ)言模型的階段。而后面在測(cè)試階段,可能質(zhì)量會(huì)更重要一點(diǎn)。更重要的還是訓(xùn)練階段,對(duì)于數(shù)量和質(zhì)量來(lái)講,我們會(huì)優(yōu)先希望有更大的數(shù)量。


最后來(lái)介紹一下一些業(yè)務(wù)導(dǎo)向的數(shù)據(jù)工程,我們?cè)陔娚谭g里可能有很多堆砌式的標(biāo)題,這種標(biāo)題很爛,所以我們很難翻譯。




比如對(duì)于這種電商的詞語(yǔ),一看可能不知所云,所以有些時(shí)候我們要對(duì)特定的場(chǎng)景進(jìn)行專門的數(shù)據(jù)標(biāo)注,再訓(xùn)練出專門的數(shù)據(jù)來(lái)提升在業(yè)務(wù)方面的能力分?jǐn)?shù)。這個(gè)領(lǐng)域的翻譯能力在我們官網(wǎng)已經(jīng)上線了,大家可以去看看不同領(lǐng)域之間的翻譯功能。


大概說(shuō)一下,對(duì)于業(yè)務(wù)模型的評(píng)測(cè),我們還沒(méi)有特別可靠的評(píng)估方法,只有如下兩種:自動(dòng)評(píng)估和人工評(píng)估。



總結(jié)一下目前工業(yè)級(jí)的機(jī)器翻譯所需要的數(shù)據(jù)與技能:第一,更重要的是大規(guī)模的單語(yǔ)與雙語(yǔ)語(yǔ)料積累,只有這樣才能更好地提升機(jī)器翻譯的效果;第二是業(yè)務(wù)導(dǎo)向的數(shù)據(jù)測(cè)試集的建設(shè),與業(yè)務(wù)場(chǎng)景相關(guān)的比較重要;第三個(gè)是針對(duì)特定業(yè)務(wù)場(chǎng)景的標(biāo)注工程,以及還有人工評(píng)估把數(shù)據(jù)的質(zhì)量把控到一個(gè)基本點(diǎn)之上。


其實(shí)講完這個(gè),如果是放在幾個(gè)月之前,我可能就會(huì)開(kāi)始講一講目前機(jī)器翻譯的一些不足之處,以及一些我們今后可能要解決的點(diǎn)。但是大家應(yīng)該知道,如今 GPT 為首的大語(yǔ)言模型改變了機(jī)器翻譯,甚至是改變了整個(gè)自然語(yǔ)言處理的視角。


| 大語(yǔ)言模型給 NLP 技術(shù)帶來(lái)的影響


那么這里就詳細(xì)介紹一下,為什么大語(yǔ)言模型能夠給業(yè)界帶來(lái)這么大的改變。前面我有提到 Log-Linear Scaling law,這個(gè)規(guī)律的重點(diǎn),就是在模型層是翻譯系統(tǒng)的情況下,數(shù)據(jù)每乘以10,就會(huì)有一個(gè)線性的提升。但其實(shí)到了某一個(gè)數(shù)據(jù)量級(jí)之后,我們會(huì)突然“開(kāi)悟”,這個(gè)學(xué)界把它叫做 Emerging ability,翻譯成中文的話叫做涌現(xiàn)能力。



這種涌現(xiàn)能力其實(shí)對(duì)于我們來(lái)說(shuō)也挺常見(jiàn)的,比如說(shuō)你讓一個(gè) 5 歲的小孩學(xué)習(xí)乘法,他可能怎么都學(xué)不會(huì),這就跟他大腦里面的神經(jīng)元還在發(fā)展有關(guān)。大家可以回想一下自己在讀學(xué)前班的時(shí)候,可能有些數(shù)學(xué)題怎么也想不清楚,而一年級(jí)、二年級(jí)的時(shí)候突然就想清楚了,比如說(shuō)一些復(fù)雜的 10 以上的加法,突然就可以學(xué)會(huì)了,這個(gè)其實(shí)就跟人的神經(jīng)元成長(zhǎng)有關(guān)。


其實(shí)在神經(jīng)網(wǎng)絡(luò)里面也出現(xiàn)了一個(gè)類似的效果,只要模型夠大,數(shù)據(jù)夠多,這個(gè)模型就突然開(kāi)悟了一樣,它就可以做很多事情了。這個(gè)時(shí)候我們甚至不需要完整的編碼器-解碼器架構(gòu),直接使用編碼器,只要用這個(gè)模型去學(xué)習(xí)大量數(shù)據(jù),它就可以學(xué)到這些語(yǔ)言之間的信息,就可以具有翻譯能力了。



這個(gè)圖比較直觀的展示了前面講的對(duì)數(shù)曲線和涌現(xiàn)曲線的一個(gè)對(duì)比。前面我們講的是,模型每提升 10 倍,效果會(huì)線性增長(zhǎng),但是到了某一個(gè)點(diǎn),大概是超過(guò)了 10 億的神經(jīng)元之后,模型就會(huì)突然出現(xiàn)很強(qiáng)的語(yǔ)言水平提升。這個(gè)為什么會(huì)產(chǎn)生?目前各個(gè)學(xué)界都沒(méi)有特別好的解釋,但是模型在不同學(xué)科的任務(wù)上都出現(xiàn)了這種效果。


這個(gè)是目前最新的大語(yǔ)言模型的性能曲線。WikiText 是基于維基百科的一個(gè)比較復(fù)雜的問(wèn)題集合,以它作為任務(wù),就可以看出來(lái)這樣一個(gè)效果:在模型在 10B 以下的時(shí)候,它的性能是一個(gè)線性的增長(zhǎng)。但是在 10B 量級(jí)以上的話,模型就突然開(kāi)悟了,突然就非??焖俚卦鲩L(zhǎng)。特別到 100 倍時(shí),它的效果基本上就達(dá)到接近人類的水平了,進(jìn)行數(shù)學(xué)計(jì)算的能力跟人類不相上下。大家可能覺(jué)得 100B 這個(gè)數(shù)字很大,因?yàn)橐话俪艘允畠|就是千億的量級(jí)。千億量級(jí)就是現(xiàn)在地球上的人口數(shù)再乘以十幾倍,大概是這樣一個(gè)量級(jí)。



前面我們說(shuō)到,工業(yè)界現(xiàn)有的大部分系統(tǒng)的參數(shù)量大概是上海的人口數(shù)乘以3,如果要讓模型得到這種涌現(xiàn)能力,它的參數(shù)量大概是地球的人口數(shù)乘以10。它的計(jì)算量則會(huì)提升得更大:它做一次翻譯需要的計(jì)算量,從之前的 10 的 20 次方會(huì)突增到 10 的 24 次方,10 的 24 次方,也是一個(gè)非常大的數(shù)。這個(gè)數(shù)可能大家更沒(méi)概念了,在化學(xué)里面有一個(gè)阿伏伽德羅常數(shù)(1摩爾物質(zhì)所含的分子數(shù)),它是 6 乘以 10 的 23 次方。再舉個(gè)簡(jiǎn)單的例子,大概一顆葡萄里面水分子的數(shù)量大概就是 10 的 23 次,也就是說(shuō)現(xiàn)在的模型要做一次機(jī)器翻譯的任務(wù),大概要做 10 顆葡萄蘊(yùn)含的水分子數(shù)量那么多的運(yùn)算才能得到結(jié)果,但是它的效果會(huì)非常好。


現(xiàn)在也有很多開(kāi)源的模型,但我們有時(shí)候會(huì)發(fā)現(xiàn)模型好像也沒(méi)有開(kāi)悟過(guò),這里的 GPT2 就是一個(gè)比較有名的開(kāi)源大模型。你問(wèn)他一些問(wèn)題,可能會(huì)覺(jué)得他在瞎說(shuō)。


有科學(xué)家就發(fā)現(xiàn)這個(gè)時(shí)候,是我們提問(wèn)的方法有問(wèn)題,如果問(wèn)一些有上下文的問(wèn)題,他的回答就會(huì)好一些。你補(bǔ)充一些信息,這個(gè)時(shí)候它就可以正確地去生成內(nèi)容。你看它的效果就會(huì)很好,但它還是會(huì)犯一個(gè)錯(cuò),特別是它寫到后面的時(shí)候。


剛剛說(shuō)到的補(bǔ)充信息,我們?cè)趯W(xué)術(shù)界統(tǒng)一叫做提示工程,也就是為了激發(fā)它的能力,我們還要先給他一些任務(wù)的提示。比如說(shuō)我們讓大家做知識(shí)問(wèn)答的時(shí)候,要給他一些類似的問(wèn)題和答案,這個(gè)時(shí)候模型就可以發(fā)揮出最好效果。



谷歌對(duì)這個(gè)現(xiàn)象也有相關(guān)研究,他們發(fā)現(xiàn)不需要提供大量的雙語(yǔ)翻譯數(shù)據(jù),只要提前給 GPT 模型 5 個(gè)左右的雙語(yǔ)翻譯例子,它就可以翻譯得很好了,大家可以打開(kāi)網(wǎng)站:https://huggingface.co/gpt2 試一試,大家比較熟悉哪個(gè)語(yǔ)種,可以自己提供這個(gè)語(yǔ)種的語(yǔ)料給它,看它能不能翻譯對(duì),也可以用類似的方法讓他做一些問(wèn)答,看看能達(dá)到什么樣的效果。



GPT 2 不是最新的模型,為了更好地激發(fā)各種模型的效果,有一個(gè)學(xué)科橫空出世,叫做提示工程,通過(guò)撰寫合適的提示,學(xué)術(shù)里叫做Prompt,來(lái)讓模型能夠產(chǎn)生比較好的回答能力。


一個(gè)標(biāo)準(zhǔn)的提示工程,就有指令、任務(wù)輸入和輸出三部分,這里是一個(gè)完整的輸入,大家可以去參考一下。




在提示工程里面還有一種特殊的流派,這個(gè)流派的學(xué)者覺(jué)得由人類生成提示還不夠出色,就應(yīng)該讓機(jī)器自動(dòng)生成,讓大模型可以自動(dòng)生成一些解法。比如說(shuō)你提出一個(gè)數(shù)學(xué)題,如果你不給它任何提示的話,這種答案往往是錯(cuò)的。一般的人的想法,可能是給它一些類似的數(shù)學(xué)題和對(duì)應(yīng)的回答步驟,我們叫做推理概念。就比如說(shuō)給他一個(gè)這種問(wèn)題,類似于“羅杰有5個(gè)網(wǎng)球,他再買了2罐網(wǎng)球,每一罐里面有3個(gè),一共有多少個(gè)網(wǎng)球?”再給出答案:5 + 6 = 11。先給他一個(gè)問(wèn)題和答案,再問(wèn)他一個(gè)類似的問(wèn)題,模型就可以答對(duì)。但是他覺(jué)得這樣還是太麻煩了,能不能用盡量少的方法去實(shí)現(xiàn)這個(gè)效果。后面發(fā)現(xiàn)有一句話叫 "Let's think step by step." 你只要把這句魔法咒語(yǔ)輸進(jìn)去,模型就可以給到正確答案,很神奇,大家也可以直接到大模型里面試一下,或者不一定是 "Let's think step by step.",可以是類型的句子,用這種魔法咒語(yǔ)式的隱藏方法就可以激發(fā)很多推理等方面的能力。



前面講的這些大模型,都還要我們?nèi)祟惢蚨嗷蛏俚刂辽賹懸痪淠Хㄖ湔Z(yǔ)才能激活他們的能力。而目前最火的ChatGPT 其實(shí)就不需要了,它的核心就是把所有的NLP任務(wù)都看成是對(duì)話任務(wù)。這個(gè)思想其實(shí)是很早的一篇論文提出來(lái)的,它就認(rèn)為我們只需要一個(gè)夠強(qiáng)的問(wèn)答對(duì)話系統(tǒng)就可以解決所有的語(yǔ)言問(wèn)題。這里是一篇 12 年的論文中提出的例子,給模型一段對(duì)話,然后問(wèn)它和對(duì)話相關(guān)的問(wèn)題,它可以回答出來(lái),還能進(jìn)行正確的情感推理。


如果你讓他把這一段話翻譯成法語(yǔ),它也可以翻譯正確,其實(shí) ChatGPT 就是繼承了這種思想,在前面提到的大模型的基礎(chǔ)上,再做一些提示工程,就可以構(gòu)成一個(gè)比較好的模型。ChatGPT 的訓(xùn)練流程比較長(zhǎng),我這里就不展開(kāi)了,簡(jiǎn)要講一下它的 3 大步驟。



第一步就是無(wú)監(jiān)督自訓(xùn)練,用互聯(lián)網(wǎng)的公開(kāi)語(yǔ)料直接訓(xùn)一個(gè)大模型。前面我們展示的 GPT2,它就是這樣一個(gè)無(wú)監(jiān)督自訓(xùn)練出來(lái)的一個(gè)效果。但是訓(xùn)練到這一步的模型,往往還要做一些提示,或者說(shuō)一些模仿或者引導(dǎo),才能讓它展示出百分之百的效果。所以說(shuō) ChatGPT 在它的基礎(chǔ)上專門請(qǐng)了許多標(biāo)注員,第一版的模型是請(qǐng)了 40 個(gè)美國(guó)的碩士來(lái)給他們專門撰寫問(wèn)答模板,還有收集公開(kāi)的問(wèn)題,做一個(gè)問(wèn)答的訓(xùn)練,讓模型知道應(yīng)該針對(duì)哪種問(wèn)題做哪種回答。


就比如說(shuō)這種問(wèn)題的模板一般就是“法國(guó)的首都是哪里?是巴黎?!边@樣模型在接觸到類似于“法國(guó)首都在哪里?”的問(wèn)題時(shí),就不會(huì)自己瞎編了,會(huì)提供人類給到它的答案。最后會(huì)做一步強(qiáng)化學(xué)習(xí),它也是機(jī)器學(xué)習(xí)一個(gè)流派,它的核心思想是鼓勵(lì)好答案,懲罰壞答案。懲罰壞答案主要是懲罰一些不符合人類價(jià)值觀的答案。其實(shí)通過(guò)監(jiān)督訓(xùn)練之后,模型已經(jīng)有很強(qiáng)的問(wèn)答能力了,但是有時(shí)候我們可能不想讓他生成一些答案,比如說(shuō)你問(wèn) ChatGPT “炸藥怎么做?”這種問(wèn)題,我們不想讓他回答。如果模型給出了答案,我要怎么做?此時(shí)我們給他一個(gè)懲罰。而模型答我不知道的時(shí)候,給他一個(gè)好的鼓勵(lì),通過(guò)這種方法把人類的一個(gè)價(jià)值觀灌輸?shù)?ChatGPT 里面。ChatGPT 的一個(gè)大體的訓(xùn)練流程的第一步,就是無(wú)監(jiān)督自訓(xùn)練,在這個(gè)基礎(chǔ)上通過(guò)一些模板,讓語(yǔ)言模型具有問(wèn)答能力,再通過(guò)人類強(qiáng)化學(xué)習(xí)的鼓勵(lì)和懲罰,讓它具備一些人類的價(jià)值觀等等。


對(duì)于我們工業(yè)界來(lái)講,boost 訓(xùn)練,是決定模型的建設(shè),是通過(guò)大量的數(shù)據(jù)來(lái)決定模型它最后的一個(gè)天花板,數(shù)據(jù)建設(shè)越多,模型在之后的問(wèn)答里面才能表現(xiàn)出普遍的知識(shí)能力,才能回答出很多問(wèn)題。




第二步的監(jiān)督訓(xùn)練,從我們工業(yè)界的角度來(lái)講,是要讓用戶給模型寫提示、想回答。將這個(gè)過(guò)程放到了訓(xùn)練里面,就是我們目前是把這種問(wèn)答能力先做好了,這樣需要用戶自己去找魔法咒語(yǔ),或者找到問(wèn)答模板,這個(gè)時(shí)候我們就可以直接去用。最后一個(gè)強(qiáng)化學(xué)習(xí),就是保證模型下限,防止模型生成一些違法,或者不太合理的一些回答。



最后,回到我們今天的主題:大模型訓(xùn)練需要怎樣的素質(zhì)。其實(shí)前面的 3 個(gè)訓(xùn)練方法,無(wú)監(jiān)督自訓(xùn)練、監(jiān)督訓(xùn)練和強(qiáng)化學(xué)習(xí)分別給我們幾條發(fā)展路徑,比如無(wú)監(jiān)督訓(xùn)練就是想要大量的數(shù)據(jù),盡可能地去積累更多的數(shù)據(jù)。



(https://commoncrawl.org/the-data/get-started/)

這是比較著名的一個(gè)整理數(shù)據(jù)的網(wǎng)站,會(huì)定期查取,每個(gè)月都發(fā)表一版互聯(lián)網(wǎng)上所有新網(wǎng)站的一些數(shù)據(jù),它會(huì)通過(guò)一些簡(jiǎn)單的分類,記錄一些基礎(chǔ)的信息,將數(shù)據(jù)提供給大家做模型的訓(xùn)練用。在這個(gè)基礎(chǔ)上,如果我們要訓(xùn)練出好的模型,其實(shí)還是要結(jié)合一些語(yǔ)料的,也就是語(yǔ)言的信息,這個(gè)就是我們工業(yè)界模型在做的。比如說(shuō)像 Chat GPT,雖然它的正式報(bào)告里面沒(méi)有詳細(xì)說(shuō)它的某種語(yǔ)料用了多少,但他的母公司微軟集團(tuán)有進(jìn)行一些相關(guān)的分享。


從中我們知道,在他們訓(xùn)練的數(shù)據(jù)里面,會(huì)通過(guò)人工標(biāo)注選擇一些好網(wǎng)站。然后模型會(huì)更多從這些好網(wǎng)站學(xué)習(xí),或者論壇,讓模型更傾向于去選網(wǎng)上的數(shù)據(jù),對(duì)一些差的網(wǎng)站就盡量不選。第二步需要一些提示工程的能力,在 創(chuàng)建 ChatGPT 的第一版模型時(shí),招募了 40 個(gè)美國(guó)的碩士,專門撰寫問(wèn)答情況和進(jìn)行標(biāo)注。此外,他們是在全世界,比如印度,還有其他地方請(qǐng)了大量的標(biāo)注員給他們標(biāo)注信息、標(biāo)注問(wèn)答等。這種標(biāo)注提示的工程是非常重要的工作,在這里推薦兩個(gè)網(wǎng)站,一個(gè)是 shareGPT。顧名思義就是大家把自己在 chatgpt 上生成的問(wèn)答,網(wǎng)友本身挺強(qiáng)大的,大家經(jīng)常會(huì)問(wèn)一些比較神奇、比較有意思的問(wèn)題。如果大家要做數(shù)據(jù)庫(kù)積累這一類工作的話,可以去上面看看這些常見(jiàn)的問(wèn)題。比如說(shuō)這里有提到要給 B2B 的 SaaS 的初創(chuàng)企業(yè)建立提供 3 個(gè)建議,就比如說(shuō)要避免做什么,必須要有什么,模型提供了很有趣的回答,給這種 B2B 的 SaaS 企業(yè)提供一些初步的規(guī)劃等等。


第二個(gè)

(https://huggingface.co/datasets/nomic-ai/gpt4all-j-prompt-generations)

是在 huggingface 社區(qū)上的, huggingface 社區(qū)收集了各種數(shù)據(jù)集和模型,這個(gè)叫做 GPT4all 的數(shù)據(jù)集,會(huì)把目前遇到的網(wǎng)紅問(wèn)答積累下來(lái),處理成問(wèn)答的案例,模型的作者有時(shí)候也會(huì)去找一些開(kāi)源的數(shù)據(jù)集等等,把這里面的一些問(wèn)題也做成回答的形式。第二步也需要一些數(shù)據(jù)的積累方面的工作。


第三塊的話

(https://github.com/anthropics/hh-rlhf)

是一個(gè)強(qiáng)化學(xué)習(xí),這一塊在工業(yè)界就會(huì)有比較多的討論了,像我們做大模型的話,花費(fèi)最多時(shí)間的部分其實(shí)就是標(biāo)準(zhǔn)制定。我們有時(shí)候要討論什么樣的回答是好的,什么樣的回答是壞的,比如說(shuō)同一句話可能翻譯成很多形式,不同的人有不同的翻譯的風(fēng)格,我們要怎么定一個(gè)標(biāo)準(zhǔn)?哪種是好,哪種是壞的?這邊有一個(gè) github 的網(wǎng)站,它也是做了 RL(Reinforcement Learning)的積累,里面數(shù)據(jù)是無(wú)法直接查看的,大家可以去通過(guò)一些申請(qǐng)的方法把它下載下來(lái),里面的數(shù)據(jù)是人工提出的一些問(wèn)題,標(biāo)注了哪些回答能接受、哪些不能接受。標(biāo)準(zhǔn)制定可能是今后工業(yè)界做大模型的過(guò)程中非常艱難的部分。


| 站在大語(yǔ)言模型肩膀上的展望

最后來(lái)講一講從去年 12 月份至今我了解的部分。


第一個(gè)是前面我們講的部分基本都是基于機(jī)器翻譯的,很多時(shí)候我們要讓機(jī)器做的事情不僅是翻譯。機(jī)器翻譯任務(wù)可能在未來(lái)的三五年里會(huì)被解決得比較好,而且學(xué)習(xí)能力比較強(qiáng)的翻譯模型都會(huì)具有比較強(qiáng)的能力。



就比如說(shuō)一些應(yīng)用類的任務(wù),像高考作文,假如我想給一個(gè)會(huì)中文的美國(guó)朋友介紹北京故宮,這個(gè)時(shí)候你可能要考慮他的背景知識(shí),而生成的內(nèi)容是中文。

比如你在網(wǎng)絡(luò)論壇上也會(huì)看到這種自然語(yǔ)言的語(yǔ)料,這個(gè)時(shí)候可能需要理解一些網(wǎng)絡(luò)論壇內(nèi)部的黑話。最后的語(yǔ)料積累可能就會(huì)是結(jié)合文化背景、知識(shí)背景的一些翻譯,而不是簡(jiǎn)單的句子到句子的任務(wù)。



第二個(gè)是大模型的難處,我們剛才介紹了大模型有很多優(yōu)點(diǎn),可能會(huì)在未來(lái)三五年里面給機(jī)器翻譯的語(yǔ)料庫(kù)建設(shè)、機(jī)械翻譯的工業(yè)界落地帶來(lái)很大的變化。但未來(lái) 3 年以內(nèi)可能機(jī)器翻譯的這套流程還不會(huì)變,也就是我前半小時(shí)講的內(nèi)容還是會(huì)有效的。


具體來(lái)講,大模型目前有兩個(gè)很貴的點(diǎn),第一個(gè)是它的價(jià)格貴,第二個(gè)是它的時(shí)間成本貴。大模型它的價(jià)格非常高,有一家咨詢公司叫做 semianalysis,它對(duì)谷歌搜索進(jìn)行過(guò)成本的統(tǒng)計(jì),目前每個(gè)用戶搜索一次,大概是 1.6 美元左右的一個(gè)廣告收入,它的成本在 1 美分左右,近一年的用戶檢索可以給谷歌 550 億美元的收入。但是如果直接換成大模型,它計(jì)算一次的成本就是 10 顆葡萄里面的水分子,如果用它的話,計(jì)算量太大,對(duì)于谷歌來(lái)說(shuō),它最主要的搜索引擎的收入會(huì)減少到三分之一左右,所以是不能接受的。雖然長(zhǎng)遠(yuǎn)來(lái)看大模型有更大的潛力,但是短期的這種預(yù)算成本上的開(kāi)銷是沒(méi)有辦法解決的,還是會(huì)有在特定任務(wù)上選擇大模型還是選擇小模型的抉擇。


最后是一個(gè)更廣的問(wèn)題,目前有人在問(wèn),大模型真的能超越人類了嗎?其實(shí)我覺(jué)得人類其實(shí)還是要把大模型當(dāng)做工作人員。


這張圖中綠色的線是人類處理的一個(gè)基礎(chǔ)能力。這條橙色的線表示隨著時(shí)間AI能力的提升,之前模型是比人類差的。從圖中也能看出,其實(shí)目前我們更應(yīng)該借助于機(jī)器的能力,站在機(jī)器的肩膀上,這樣人類能做到的事情就始終在機(jī)器之上。


這是我今天大致的分享,這是一個(gè)推薦閱讀的清單,里面涵蓋了一些我前面提到的書籍和論文,大家有興趣可以去閱讀一下。

特別說(shuō)明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請(qǐng)后臺(tái)聯(lián)系小編刪除。

- END -

轉(zhuǎn)載來(lái)源:火山翻譯

轉(zhuǎn)載編輯:周琳

GPT時(shí)代,機(jī)器翻譯需要的新數(shù)據(jù)和新技能的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
波密县| 临朐县| 宜良县| 梅州市| 武威市| 蕉岭县| 定结县| 区。| 石门县| 建阳市| 桃源县| 南平市| 凤阳县| 元氏县| 昔阳县| 青河县| 德令哈市| 江北区| 吴川市| 同江市| 灵石县| 银川市| 昌黎县| 昂仁县| 准格尔旗| 西平县| 繁峙县| 哈巴河县| 舟山市| 尼勒克县| 广德县| 瑞丽市| 长乐市| 湘潭市| 太白县| 嘉义市| 锡林郭勒盟| 勐海县| 呼图壁县| 周宁县| 卢湾区|