最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【NLP 系列】Bert 詞向量的空間分布

2023-03-16 17:59 作者:Cpp程序員  | 我要投稿

【NLP 系列】Bert 詞向量的空間分布

作者:京東零售 彭馨

1. 背景

我們知道Bert 預(yù)訓(xùn)練模型針對(duì)分詞、ner、文本分類(lèi)等下游任務(wù)取得了很好的效果,但在語(yǔ)義相似度任務(wù)上,表現(xiàn)相較于 Word2Vec、Glove 等并沒(méi)有明顯的提升。有學(xué)者研究發(fā)現(xiàn),這是因?yàn)?Bert 詞向量存在各向異性(不同方向表現(xiàn)出的特征不一致),高頻詞分布在狹小的區(qū)域,靠近原點(diǎn),低頻詞訓(xùn)練不充分,分布相對(duì)稀疏,遠(yuǎn)離原點(diǎn),詞向量整體的空間分布呈現(xiàn)錐形,如下圖,導(dǎo)致計(jì)算的相似度存在問(wèn)題。

2. 問(wèn)題分析

為什么Bert詞向量會(huì)呈現(xiàn)圓錐形的空間分布且高頻詞更靠近原點(diǎn)?

查了一些論文發(fā)現(xiàn),除了這篇 ICLR 2019 的論文《Representation Degeneration Problem in Training Natural Language Generation Models》給出了一定的理論解釋?zhuān)瑤缀跛刑峒暗?Bert?詞向量空間分布存在問(wèn)題的論文,都只是在引用該篇的基礎(chǔ)上,直接將詞向量壓縮到二維平面上進(jìn)行觀測(cè)統(tǒng)計(jì)(肉眼看的說(shuō)服力明顯不夠??)

圖中(b)(c)可以看出原生?Word2Vec?和分類(lèi)任務(wù)的詞向量經(jīng) SVD 投影,分布在原點(diǎn)周?chē)?Transformer?則分布在圓錐形區(qū)域,且任意兩個(gè)詞向量都正相關(guān),會(huì)降低模型性能,這種現(xiàn)象被稱(chēng)為表征退化問(wèn)題。

  • ①造成這種現(xiàn)象的直觀解釋是:在模型訓(xùn)練過(guò)程中,真詞的embedding會(huì)被推向隱藏狀態(tài)的方向,而其他詞會(huì)被推向其負(fù)方向,結(jié)果是詞匯表中大多數(shù)單詞的嵌入將被推向與大多數(shù)隱藏狀態(tài)負(fù)相關(guān)的相似方向,因此在嵌入空間的局部區(qū)域中聚集在一起。

  • ②理論解釋則是分析未出現(xiàn)詞的嵌入,發(fā)現(xiàn)表征退化和隱藏狀態(tài)的結(jié)構(gòu)有關(guān):當(dāng)隱藏狀態(tài)的凸包不包含原點(diǎn)時(shí),退化出現(xiàn),并且當(dāng)使用層歸一化進(jìn)行訓(xùn)練時(shí),很可能發(fā)生這種情況。并發(fā)現(xiàn)低頻詞很可能在優(yōu)化過(guò)程中被訓(xùn)練為彼此接近,因此位于局部區(qū)域。

論文將對(duì)理論解釋部分給出證明,下面從我的理解,來(lái)解讀一下??,最后再簡(jiǎn)單說(shuō)一下另外兩篇對(duì)?Bert?詞向量觀測(cè)統(tǒng)計(jì)的論文。

3. 理論解釋

在介紹之前,先熟悉幾個(gè)關(guān)于凸優(yōu)化問(wèn)題的概念(不知道其實(shí)也問(wèn)題不大??):

  • 凸集:


  • 凸包:
    點(diǎn)集Q的凸包是指一個(gè)最小凸多邊形,滿(mǎn)足Q中的點(diǎn)或者在多邊形邊上或者在其內(nèi)。(最小的凸集)

  • 錐:


  • 凸錐:
    如果一個(gè)集合既是錐,又是凸集,則該集合是凸錐。


1)未出現(xiàn)詞

因?yàn)椴蝗菀字苯臃治龈摺⒌皖l詞,作者另辟蹊徑,選擇和低頻詞比較相似的未出現(xiàn)詞來(lái)分析目標(biāo)函數(shù)。


因?yàn)槠渌麉?shù)固定,則上式等價(jià)于:


文中說(shuō)定理1 中的 A 顯而易見(jiàn),那就只能大家自行理解這個(gè)凸集了。B 則是對(duì)上面最小化公式的求解,下面給出證明

證明:

證明:

以上還是很好理解的,定理1說(shuō)明未出現(xiàn)詞的向量會(huì)被優(yōu)化無(wú)窮遠(yuǎn),遠(yuǎn)離原點(diǎn)(模越來(lái)越大)。定理2則是說(shuō)明詞向量的分布不包含原點(diǎn),而是在原點(diǎn)的一側(cè)

2)低頻詞

低頻詞的分析則是在未出現(xiàn)詞的基礎(chǔ)上,因?yàn)榉治龅皖l詞的embedding對(duì)損失函數(shù)的影響,將損失函數(shù)分為了兩部分:




總損失函數(shù)為:


原來(lái)定理3 才是理解路上的最大絆腳石!

下面簡(jiǎn)述一下對(duì)詞向量進(jìn)行觀測(cè)統(tǒng)計(jì)的論文

論文1《On the Sentence Embeddings from Pre-trained Language Models》

其實(shí)這篇論文就是字節(jié)的?Bert-flow(不熟悉 Bert-flow 可見(jiàn)《對(duì)比學(xué)習(xí)——文本匹配》)。論文計(jì)算了詞嵌入與原點(diǎn)的平均l2距離,并根據(jù)詞頻做了排序(詞頻越高排名越靠前,第0位詞頻最高),得出高頻詞靠近原點(diǎn)、低頻詞遠(yuǎn)離原點(diǎn)的結(jié)論,如下表上半部分:


表的下半部分則為詞嵌入和它的k個(gè)近鄰之間的平均l2距離和點(diǎn)積,可以看出低頻詞相較于高頻詞,和它們的k近鄰距離更遠(yuǎn),說(shuō)明低頻詞相對(duì)高頻詞分布更稀疏。

論文2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

該論文則是通過(guò)隨機(jī)計(jì)算兩個(gè)詞的相似度,發(fā)現(xiàn)都遠(yuǎn)大于0(說(shuō)明詞向量的方向基本都一致,不一致不會(huì)都遠(yuǎn)大于0),以此說(shuō)明詞向量不是均勻分布在向量空間中,而是分布在一個(gè)狹窄的圓錐體中。

4. 總結(jié)

都有理論解釋了,結(jié)論自然就是?Bert?詞向量確實(shí)存在表征退化問(wèn)題,詞向量存在各向異性,高頻詞距離原點(diǎn)更近,低頻詞訓(xùn)練不充分,遠(yuǎn)離原點(diǎn),整體分布呈現(xiàn)圓錐形,導(dǎo)致其不適用于語(yǔ)義相似度任務(wù)。不過(guò)不知道該理論解釋有沒(méi)有說(shuō)服你??????,有不同見(jiàn)解或疑問(wèn),歡迎前來(lái)交流。
針對(duì)此類(lèi)問(wèn)題,可以采用一下方法對(duì)其進(jìn)行糾正,如論文[1]中加入cos正則,論文[2]中將錐形分布轉(zhuǎn)化為高斯分布。因?yàn)樵~向量有問(wèn)題,句向量自然跑不了,所以《對(duì)比學(xué)習(xí)——文本匹配》中的算法其實(shí)也都是為了解決這個(gè)問(wèn)題。
?
附:(定理3證明)



【NLP 系列】Bert 詞向量的空間分布的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
汉源县| 安徽省| 洛宁县| 驻马店市| 佛山市| 文登市| 乐清市| 镇赉县| 德江县| 红河县| 景德镇市| 富锦市| 古交市| 桑日县| 孟州市| 昔阳县| 高碑店市| 同江市| 天全县| 黄龙县| 夏津县| 隆德县| 临清市| 潜江市| 乌海市| 乳山市| 社旗县| 迭部县| 甘泉县| 榆中县| 永定县| 小金县| 丹江口市| 白水县| 密云县| 颍上县| 武宣县| 仲巴县| 奇台县| 呼玛县| 沿河|