我把GPT 的學(xué)習(xí)軌跡可視化了!竟和人類(lèi)十分類(lèi)似 |ACL2023
回想一下我們小時(shí)候是如何習(xí)得一門(mén)語(yǔ)言的?一般而言,在人類(lèi)嬰兒出生第一年內(nèi),最開(kāi)始嬰兒只能模仿式的說(shuō)出一些“音素”,說(shuō)出一些最簡(jiǎn)單與基本的單詞或句子,而伴隨著成長(zhǎng),在大約一歲到三歲的階段,嬰兒開(kāi)始可以掌握并說(shuō)出一些最基本的句法結(jié)構(gòu),開(kāi)始可以將最開(kāi)始的模仿式的割裂的單詞拼接組成一個(gè)句子,比如“The boy sang”,“The boy fell”,而再長(zhǎng)大一點(diǎn)小孩才會(huì)逐漸學(xué)會(huì)更加復(fù)雜的嵌套式的句法結(jié)構(gòu),比如“The boy that I saw sang”,盡管這個(gè)時(shí)間分類(lèi)并不準(zhǔn)確,但是兒童的學(xué)習(xí)階段的順序大致可以被如此刻畫(huà)。
而最近,來(lái)自 Meta AI 以及巴黎文理研究大學(xué)與巴黎薩克雷大學(xué)的研究者們卻發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,GPT 模型對(duì)語(yǔ)言進(jìn)行學(xué)習(xí)的順序十分類(lèi)似人類(lèi)兒童對(duì)語(yǔ)言進(jìn)行學(xué)習(xí)的順序,遵循一個(gè)由易到難由淺入深,往往先學(xué)會(huì)簡(jiǎn)單的表達(dá)再去組成復(fù)雜的長(zhǎng)句。作為統(tǒng)計(jì)模型的 GPT 與人類(lèi)兒童的語(yǔ)言習(xí)得表現(xiàn)出的相似性將有助于人們對(duì)二者進(jìn)行結(jié)合分析,得出更多有趣的結(jié)論。
論文題目:
Language acquisition: do children and language models follow similar
論文鏈接:
https://arxiv.org/pdf/2306.03586.pdf
語(yǔ)言技能的學(xué)習(xí)可以由“順序”與“并行”兩種模型進(jìn)行描述,順序?qū)W習(xí)是指在完全掌握簡(jiǎn)單技能前不會(huì)開(kāi)始復(fù)雜技能的學(xué)習(xí),而并行學(xué)習(xí)則指簡(jiǎn)單與復(fù)雜技能的學(xué)習(xí)是并行的可以同時(shí)進(jìn)行習(xí)得。順序與并行的差異表現(xiàn)如下圖所示:
通過(guò)援引前人對(duì)兒童語(yǔ)言習(xí)得階段分類(lèi)的研究,這篇文章將兒童的語(yǔ)言習(xí)得分為三個(gè)階段,分別是最開(kāi)始的簡(jiǎn)單句階段到復(fù)雜一點(diǎn)的由 What,How 等引導(dǎo)的句子,最后到更加復(fù)雜一點(diǎn)的 Why 引導(dǎo)的句子以及關(guān)系從句等等:
基于上述分類(lèi)的三個(gè)階段,作者為每個(gè)階段選取一組語(yǔ)言探針(Linguistic Probes)作為“階段能力測(cè)試”如下圖所示:
具體到訓(xùn)練執(zhí)行,作者主要的思路是通過(guò)從頭開(kāi)始訓(xùn)練 48 個(gè) GPT-2 模型,在每 100 次訓(xùn)練后對(duì)模型進(jìn)行一次評(píng)估,觀察這 48 個(gè) GPT-2 模型的“語(yǔ)言能力”。而如何評(píng)估所謂語(yǔ)言能力這種抽象概念呢,作者團(tuán)隊(duì)針對(duì)希望評(píng)估的語(yǔ)言模型不同的語(yǔ)言技能,從三個(gè)開(kāi)源的測(cè)試基準(zhǔn) BLIMP、Zorro和BIG-Bench 中選擇了 96 個(gè)語(yǔ)言探針對(duì) GPT-2 進(jìn)行了語(yǔ)言測(cè)試,以 Softmax 層的輸出比較符合語(yǔ)法與不合語(yǔ)法的句子的總體占比,以評(píng)估模型是否掌握了當(dāng)前語(yǔ)言探針代表的語(yǔ)言能力。同時(shí),為了不失測(cè)試的一般性,作者在 48 個(gè) GPT-2 模型得到的語(yǔ)言習(xí)得率數(shù)據(jù)中進(jìn)行了不同的檢驗(yàn),以驗(yàn)證習(xí)得這些語(yǔ)言技能的順序在所有 GPT-2 類(lèi)模型間都是共享的。
而最終得到語(yǔ)言能力學(xué)習(xí)的系統(tǒng)軌跡結(jié)果如下圖所示:
從上圖的右列可以明顯看出技能的獲取時(shí)間與語(yǔ)言技能的三個(gè)階段有直接關(guān)系,高級(jí)的階段技能獲取時(shí)間更長(zhǎng),模型類(lèi)似人類(lèi)兒童有一個(gè)從易到難的系統(tǒng)的學(xué)習(xí)軌跡。但是,通過(guò)將 64 個(gè)語(yǔ)言探針以技能獲取時(shí)間早晚劃分早期、中期與晚期三組,并比較隨著訓(xùn)練輪次增加其組內(nèi)準(zhǔn)確率的變化情況如下圖所示,可以看到三個(gè) Group 都有一個(gè)明顯的從訓(xùn)練開(kāi)始階段就提升的過(guò)程,這表明 GPT-2 的學(xué)習(xí)軌跡事實(shí)上是并行的,但是從學(xué)習(xí)速率角度來(lái)看,三組的學(xué)習(xí)速率有明顯的不同,早期組學(xué)習(xí)速率較快而晚期組則相對(duì)較慢。
而再將 GPT-2 模型的訓(xùn)練軌跡與人類(lèi)兒童的行為進(jìn)行對(duì)比,可以觀察到 Children 的學(xué)習(xí)順序與 GPT-2 的學(xué)習(xí)順序大致匹配,似乎模型與兒童以相似的順序來(lái)習(xí)得語(yǔ)言技能,結(jié)果如下圖所示:
總結(jié)與討論
作為一種“統(tǒng)計(jì)模型”,不可否認(rèn)的是這些語(yǔ)言學(xué)習(xí)的時(shí)間與語(yǔ)言現(xiàn)象在自然語(yǔ)言中的發(fā)生頻率相關(guān),因此似乎這種從易到難的學(xué)習(xí)策略與模型訓(xùn)練數(shù)據(jù)的二八法則直接相關(guān)。并且 GPT-2 的學(xué)習(xí)過(guò)程表現(xiàn)得一些現(xiàn)象或許與一些語(yǔ)言學(xué)直覺(jué)并不相符,譬如在使用“Simple”探針檢查簡(jiǎn)單句中得主謂一致與使用“Wh Questions Subject Gap Long Distance”探針時(shí),直覺(jué)上將判斷主謂一致要比計(jì)算問(wèn)題與問(wèn)題主體之間的距離要簡(jiǎn)單許多,但是在學(xué)習(xí)時(shí)間上二者相仿。同時(shí),回想 GPT 模型無(wú)監(jiān)督預(yù)訓(xùn)練的訓(xùn)練目標(biāo),從目標(biāo)上講就與兒童學(xué)習(xí)“說(shuō)話”的目的導(dǎo)向不是很一致,盡管在實(shí)驗(yàn)中他們表現(xiàn)了類(lèi)似的學(xué)習(xí)順序。
但是如果更加深入一點(diǎn)思考,其實(shí)作為統(tǒng)計(jì)模型的 GPT-2 與作為“人類(lèi)智能”的兒童在學(xué)習(xí)語(yǔ)言能力上的相似性與區(qū)別很像是一個(gè)在語(yǔ)言學(xué)中長(zhǎng)時(shí)間存在的爭(zhēng)論,即語(yǔ)言習(xí)得究竟來(lái)源于后天的經(jīng)驗(yàn)語(yǔ)料的不斷輸入,還是類(lèi)似喬姆斯基所說(shuō)人類(lèi)天生內(nèi)含了一個(gè)“語(yǔ)言結(jié)構(gòu)”,語(yǔ)言的習(xí)得本質(zhì)上依賴(lài)于這種先天結(jié)構(gòu)而非后天的大量訓(xùn)練。透過(guò)對(duì)目前似乎已經(jīng)可以算作掌握了一般意義上的語(yǔ)言技能的 GPT 模型語(yǔ)言習(xí)得過(guò)程的研究,或許會(huì)有助于我們發(fā)現(xiàn)什么使得人類(lèi)可以極其快速低成本的學(xué)會(huì)語(yǔ)言而模型卻需要建立在巨量參數(shù)上才可以實(shí)現(xiàn)的原因??偟膩?lái)說(shuō)發(fā)現(xiàn)模型對(duì)語(yǔ)言的習(xí)得與人類(lèi)對(duì)語(yǔ)言的習(xí)得具有的相似性有可能即有助于我們分析人類(lèi)的語(yǔ)言習(xí)得,又有助于借助這種相似性為我們提升模型的習(xí)得有非常重要的借鑒意義。