最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【斯坦福CS224N】(2021|中英) 深度自然語(yǔ)言處理Natural Lan

2022-12-04 01:52 作者:從來(lái)你又調(diào)皮  | 我要投稿

?
Lecture 1 - Introduction and Word Vectors P1 - 03:41
?

語(yǔ)言是混亂的。

目標(biāo)是更好地理解語(yǔ)言中的意思及其影響。

?
Lecture 1 - Introduction and Word Vectors P1 - 11:38
?

GPT3,通用模型,泛用性

e.g. 給定模式續(xù)寫(xiě),自然語(yǔ)言轉(zhuǎn)sql

?
Lecture 1 - Introduction and Word Vectors P1 - 15:10
?

傳統(tǒng)上,語(yǔ)言學(xué)家認(rèn)為,是符號(hào)與所指代事物的配對(duì)。但這樣的模型不是很好實(shí)現(xiàn)。

但是也有實(shí)現(xiàn),如WordNet,使用了詞典等資源。規(guī)定了同義詞、上位詞、下位詞等等。

?
Lecture 1 - Introduction and Word Vectors P1 - 16:24
?

但顯然這樣是有失偏頗的,因?yàn)橐环矫嬉恍┰~的含義是跟隨語(yǔ)境變化的,另一方面人很難把詞語(yǔ)的細(xì)微差別都輸入系統(tǒng)中。語(yǔ)境、語(yǔ)義是無(wú)限的且不斷更新的,而人工永遠(yuǎn)是有限的,無(wú)法人工地為系統(tǒng)規(guī)定全部的語(yǔ)義情況。

  • Great as a resource but missing nuance
  • Missing new meanings of words
  • Subjective
  • Require human labor to create and adapt
  • Can't compute accurate word similarity

?
Lecture 1 - Introduction and Word Vectors P1 - 18:09
?

discrete離散的

傳統(tǒng)的NLP方法視單詞為離散化的,而忽視了他們之間的關(guān)系。其將詞語(yǔ)作為一個(gè)個(gè)n維的01向量(類似編碼)。

顯然,一個(gè)個(gè)向量之間的點(diǎn)乘關(guān)系并不能夠表示詞語(yǔ)間的復(fù)雜關(guān)系。

當(dāng)然,一個(gè)改進(jìn)方案是,借助WordNet等資源,獲取到一些人工定義的關(guān)系。然而,由于之前所說(shuō)的缺點(diǎn),前人做的嘗試大都由于(語(yǔ)義的?)不夠完整而失敗了,效果并不好。

?
Lecture 1 - Introduction and Word Vectors P1 - 20:31
?

“使用上下文信息來(lái)表示詞語(yǔ)含義”

Distributional semantics:

A word's meaning is given by the words that frequently appear close-by.

這種方法被證明是極具可計(jì)算性的,比較容易實(shí)現(xiàn)。

?
Lecture 1 - Introduction and Word Vectors P1 - 22:45
?

NLP課上,當(dāng)我們用自然語(yǔ)言談到一個(gè)詞時(shí),實(shí)際上說(shuō)的有兩種不同的東西,token和type。

token是詞語(yǔ)本身,抽象的詞。

type是詞語(yǔ)這個(gè)符號(hào)所指代的一類東西/觀念等等,是具體的詞。

?
Lecture 1 - Introduction and Word Vectors P1 - 23:34
?

word vector

具體到是實(shí)現(xiàn)上,用n維的實(shí)值向量來(lái)表示詞語(yǔ)含義。這里n維具體來(lái)說(shuō)一般是300左右。

The way it will represent the meaning of that word, is that this vector will be useful for predicting other words that occur in the context. 意思大概是(?)向量的值設(shè)置/調(diào)整以能夠更好地預(yù)測(cè)上下文為目標(biāo)。


一些別名:

word vector = word embeddings = (neural) word representations

embedding的來(lái)源是:詞語(yǔ)的含義被嵌入到了300維的高維空間


用詞向量的詞義表示方法,被稱為distributed representation而非localized representation,因?yàn)楝F(xiàn)在詞語(yǔ)的含義被分散在300維左右的向量的各個(gè)維度上了。對(duì)比之前的傳統(tǒng)nlp那種詞語(yǔ)編碼,詞語(yǔ)編碼的各個(gè)位中并不包含任何的信息,僅僅整個(gè)編碼代表了一個(gè)單詞。而詞向量里每一個(gè)元素值都蘊(yùn)含了一定的語(yǔ)義。

?
Lecture 1 - Introduction and Word Vectors P1 - 25:41
?

每個(gè)詞都有一個(gè)300維的詞向量,這意味著在這個(gè)300維的空間中,分布著一個(gè)個(gè)的單詞。

這里展示的這個(gè)空間的的二維投影非常有趣而形象。

類似意思的詞語(yǔ)聚集在一起,常用在一起的詞語(yǔ)靠的比較近

?
Lecture 1 - Introduction and Word Vectors P1 - 27:38
?

Word2Vec是一種形成/計(jì)算詞向量的算法,或者說(shuō)學(xué)習(xí)詞向量的框架。

我們的整體思路是:

  1. 先有一個(gè)大的文本語(yǔ)料庫(kù)。
  2. 選定一些常用的,難以再分割的詞匯,舍棄一些罕見(jiàn)詞。
  3. 為這些選定的詞語(yǔ)計(jì)算出詞向量

Then what is a good vector? How to form a good vector?

在計(jì)算詞向量時(shí),使用Word2Vec的思路:

(詞向量的計(jì)算,可以通過(guò)對(duì)大量的文本進(jìn)行所謂”distributed similarity task”來(lái)完成,即不斷檢驗(yàn)其是否能夠較好地預(yù)測(cè)周?chē)膯卧~)

  1. 先有一個(gè)中心詞C,以及它附近的一個(gè)單詞O(上下文).C表示center,O表示outside。
  2. 根據(jù)當(dāng)前C的詞向量,計(jì)算該上下文中單詞O可能出現(xiàn)的概率。然后由于現(xiàn)在這個(gè)詞O確實(shí)出現(xiàn)在了C的上下文里,所以我們應(yīng)當(dāng)調(diào)整C的詞向量以加大對(duì)這個(gè)上下文詞O的估計(jì)概率。(這有點(diǎn)像極大似然估計(jì)?,總之就是一件事情既然發(fā)生了,我們傾向于認(rèn)為它的概率是較大的或者最大的)

?
Lecture 1 - Introduction and Word Vectors P1 - 29:39
?

指定一個(gè)C,然后調(diào)整C的詞向量,以對(duì)C左右的各個(gè)單詞進(jìn)行概率提升。然后走到下一個(gè)單詞,后一個(gè)單詞為C重復(fù)操作。最終遍歷整個(gè)文本庫(kù)。

?
Lecture 1 - Introduction and Word Vectors P1 - 30:52
?

怎么改變C的詞向量以提高預(yù)測(cè)的O出現(xiàn)在上下文中的概率呢?

這是Word2Vec的核心部分 Objective Function

實(shí)際上這看起來(lái)很像(可能就是)似然函數(shù)。

L(θ)是似然函數(shù),而Objective Function或J(θ)是-1/T乘以對(duì)數(shù)似然函數(shù),代表了負(fù)的平均似然程度。這里的負(fù)號(hào)僅僅是因?yàn)槿藗兺ǔO矚g最小化一個(gè)loss,而不是最大化。因此這里J(θ)也常常被叫做loss。

這個(gè)似然函數(shù)意思大概是:先對(duì)每一個(gè)中心詞C,對(duì)于其左側(cè)右側(cè)分別m個(gè)詞計(jì)算概率(概率密度函數(shù),與θ有關(guān)),然后將這2m個(gè)概率密度函數(shù)乘起來(lái),得到C的似然函數(shù)。然后將全文本庫(kù)所有C的似然函數(shù)再乘起來(lái),得到一個(gè)大的似然函數(shù)。本來(lái)對(duì)于每個(gè)中心詞C,只有300個(gè)參數(shù),現(xiàn)在變成了大的似然函數(shù),包含了所有的中心詞,故大的似然函數(shù)的變量是所有參數(shù),即 詞匯數(shù)量 個(gè)300維向量,共 詞匯數(shù)量*2*300 個(gè)參數(shù)。(后面會(huì)提到實(shí)際操作中會(huì)給每個(gè)詞語(yǔ)兩個(gè)詞向量)

我們需要做的就是變動(dòng)參數(shù)向量\theta(它是一個(gè) 詞語(yǔ)數(shù)量*2*300 維的向量),讓似然函數(shù)L(θ)取到最大值,也即是讓J(θ)取到最小值(因?yàn)槭秦?fù)的)。

看到這里,個(gè)人直觀感覺(jué),這樣需要囊括如此多數(shù)據(jù)才能進(jìn)行運(yùn)算的算法,這似乎是不太好實(shí)現(xiàn)的,如果這么算需要消耗的內(nèi)存似乎非常大。一般分布式的,一點(diǎn)一點(diǎn)進(jìn)行的算法會(huì)更現(xiàn)實(shí)一點(diǎn)。

?
Lecture 1 - Introduction and Word Vectors P1 - 33:15
?

上面還是概括地在討論,但并沒(méi)有說(shuō)到底該怎么計(jì)算具體上下文單詞的可能出現(xiàn)概率。

所以現(xiàn)在的問(wèn)題變成了:

How to calculate P(w_{t+j} | w_{t}; θ)?

答案是:

我們僅僅簡(jiǎn)單地用詞向量來(lái)計(jì)算概率。

這里有個(gè)技術(shù)上需要注意的事情,我們給每個(gè)詞賦予兩個(gè)詞向量,一個(gè)在它作為中心詞時(shí)使用,另一個(gè)在它作為上下文詞的時(shí)候使用。如此優(yōu)化了數(shù)學(xué)表達(dá),也更容易寫(xiě)算法。

計(jì)算概率的表達(dá)式如ppt底部公式所示,需要了解的是

  • 這里的上標(biāo)T不是次方(向量也不能乘方),而是矩陣轉(zhuǎn)置。也就是說(shuō),exp()里是矩陣乘法,是兩個(gè)詞向量的點(diǎn)積。
  • 分母上V指的是全體詞匯
  • 之所以用了exp(),是因?yàn)槲覀儾幌M霈F(xiàn)負(fù)的概率。思想上來(lái)說(shuō),不用exp表示的意思也是一樣的,都是這個(gè)詞O出現(xiàn)的可能性除以全體詞出現(xiàn)的可能性,得到這個(gè)詞出現(xiàn)的概率。
  • 可以看出這個(gè)P如果遍歷每個(gè)詞求和,會(huì)得到1。這很符合概率的定義?,F(xiàn)在的P就是一個(gè)離散的概率函數(shù)。
  • 這實(shí)際上是softmax函數(shù)的一個(gè)例子。softmax函數(shù)能夠?qū)^n空間映射到(0,1)^n,它返回的是一個(gè)概率分布。
  • softmax函數(shù)的命名原因:max是因?yàn)樗糯罅俗畲蟮脑氐母怕?,soft是因?yàn)樗鼮樽钚〉脑匾仓付艘稽c(diǎn)概率,詳見(jiàn)視頻。

這里有一個(gè)思想就是,用點(diǎn)積度量向量的相似度,即如果兩個(gè)向量的點(diǎn)積越大,那么一定程度上可以認(rèn)為這兩個(gè)向量越相似。

?
Lecture 1 - Introduction and Word Vectors P1 - 38:00
?

loss就是前面的J(θ),記維度為d,詞匯數(shù)量為V,則θ包含了2dV個(gè)參數(shù)。

這里就是進(jìn)行一個(gè)梯度下降。

所以我們接下來(lái)要做的就是計(jì)算所有這些向量的梯度。

?
Lecture 1 - Introduction and Word Vectors P1 - 40:05
?

求P(O|C)對(duì)每個(gè)參數(shù)的偏導(dǎo)

這里只做了對(duì)中心詞向量參數(shù)(300維左右)的偏導(dǎo)。

經(jīng)過(guò)一系列數(shù)學(xué)推導(dǎo),得到的結(jié)果是我們的目標(biāo)只需要使平均值接近數(shù)學(xué)期望即可。

即:P(O|C)對(duì)V_c的偏導(dǎo),等于

u_o-\sum_{x=1}^v P(x|C)u_x

?
Lecture 1 - Introduction and Word Vectors P1 - 56:54
?

ipynb的演示,顯示一個(gè)2014年的模型中的詞向量。

用詞向量做了analogy,推導(dǎo)近似詞,效果驚人地好。如:

king -man +women => queen

?
Lecture 1 - Introduction and Word Vectors P1 - 01:05:16
?

Q:一個(gè)詞的兩個(gè)詞向量有什么區(qū)別。她的理解是,一個(gè)詞可以有很多context word,但是為什么只有兩個(gè)詞向量呢,明明有這么多context word,為什么只選兩個(gè)組成詞向量呢。

A:

這里其實(shí)是對(duì)詞向量工作方式的理解有偏差。

詞向量是對(duì)一個(gè)詞的所有附近詞進(jìn)行訓(xùn)練習(xí)得的,并不是選兩個(gè)詞啥的。

一個(gè)詞本質(zhì)上只有一個(gè)詞向量,這個(gè)詞向量表征這個(gè)詞的含義,并可以很好地預(yù)測(cè)給定的其他詞出現(xiàn)在他附近的概率。

但是一個(gè)詞語(yǔ)既有可能作為中心詞,也有可能作為可能出現(xiàn)在中心詞附近背景詞context word。使用一個(gè)詞向量覆蓋兩種情況會(huì)比較復(fù)雜(比如在算偏導(dǎo)數(shù)的時(shí)候由于中心詞和背景詞可能是同一個(gè),會(huì)導(dǎo)致錯(cuò)誤),所以技術(shù)上用兩個(gè)詞向量分別表示兩種情況下的這個(gè)詞,這會(huì)使許多工作大大地簡(jiǎn)化。

事實(shí)上,一個(gè)詞的兩個(gè)詞向量在訓(xùn)練后會(huì)變得非常接近,但不完全相同。于是你可以將他們?nèi)∑骄?,然后得到表示這個(gè)詞的一個(gè)單獨(dú)的詞向量。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:08:46
?

Q:詞向量之間是否有某種關(guān)系?目前是否有這方面的研究?

A:(老師也不確定)似乎,如果你有了一系列詞向量,對(duì)一些詞語(yǔ)間的充分的關(guān)系(相似),應(yīng)當(dāng)很容易被看出來(lái)。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:10:17
?

Q:(基于第一個(gè)問(wèn)題的回答)將一個(gè)詞的兩個(gè)詞向量合并到一個(gè)的時(shí)候,用的總是將兩個(gè)詞向量平均的方法嗎?

A:不同的人方法不一樣,但一般來(lái)說(shuō)是的。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:11:13
?

Q:如果一個(gè)詞有多重含義,真的能用一個(gè)詞向量來(lái)表示詞語(yǔ)的這些多重含義嗎?

A:(好問(wèn)題?。┑拇_將詞語(yǔ)的多重含義糅進(jìn)一個(gè)詞向量似乎聽(tīng)起來(lái)很瘋狂且不恰當(dāng),然而事實(shí)是它工作地非常好。下節(jié)課再細(xì)說(shuō)。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:12:34
?

Q:這門(mén)課會(huì)有關(guān)于類似Alexa/Siri的語(yǔ)音AI對(duì)話系統(tǒng)的內(nèi)容嗎?

A:這門(mén)課是主要關(guān)于文本分析與理解的,比如機(jī)器翻譯、問(wèn)答、語(yǔ)法結(jié)構(gòu)解析等,將不會(huì)關(guān)注這部分內(nèi)容。如果你感興趣的話,CS224S是關(guān)于語(yǔ)音識(shí)別和對(duì)話系統(tǒng)的。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:16:08
?

Q:觀察發(fā)現(xiàn)反義詞在詞向量空間中常常非常接近,這有些奇怪。這種模型是否夠很好的抓住詞語(yǔ)的比如正、負(fù)、正負(fù)平衡、沒(méi)有正負(fù)這種性質(zhì)呢?還是說(shuō)模型根本沒(méi)有很好地捕捉到詞語(yǔ)真正的對(duì)立面?

A:這些詞語(yǔ)特性都沒(méi)有抓住。反義詞位置接近,是源于相反的詞往往容易出現(xiàn)在相似的主題中,常常出現(xiàn)在類似的結(jié)構(gòu)中的同一位置,從而導(dǎo)致他們的基于上下文預(yù)測(cè)的方法習(xí)得的詞向量詞非常接近。一些效果詞、情感詞也是一樣的。人們當(dāng)然想通過(guò)神經(jīng)網(wǎng)絡(luò)等方法讓模型理解詞語(yǔ)的內(nèi)涵,但是那樣的話只是預(yù)測(cè)上下文詞是不夠的,這個(gè)方法做不到理解詞語(yǔ)內(nèi)涵。

(學(xué)生提到了)一些比如so,not的基礎(chǔ)詞

A:許多這些詞被語(yǔ)言學(xué)家稱作虛詞,由于它們能夠在各種各樣的背景語(yǔ)境下出現(xiàn),且有時(shí)區(qū)別不太大,因此可以想見(jiàn)上下文模型的效果不會(huì)太好。

但是事實(shí)上我們后面會(huì)搭建language model,并且他也能在這些虛詞上表現(xiàn)地很好。

解釋一下,Word2Vec模型的一個(gè)特點(diǎn)是,它忽略了詞語(yǔ)的位置,預(yù)測(cè)所有詞都用同一方法,這導(dǎo)致其不太能get到基礎(chǔ)語(yǔ)法詞。但是我們會(huì)將使用略微不同的模型,它將對(duì)句法結(jié)構(gòu)較為敏感,于是能夠get到這些基礎(chǔ)語(yǔ)法詞。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:20:26
?

Q:關(guān)于word2vec的問(wèn)題。他讀了一本書(shū),似乎和剛剛講的東西有一些差別。

A:word2vec是一個(gè)構(gòu)建詞向量的框架,基于這個(gè)框架有很多的算法。比如有預(yù)測(cè)背景詞(Skip-Gram)和預(yù)測(cè)中心詞(CBOW)兩類算法。今天講的是預(yù)測(cè)背景詞,所以它是Skip-Gram模型。

另外的細(xì)節(jié)是有許多種優(yōu)化(訓(xùn)練)模型參數(shù)的方法,今天講的只是最naive的一種,其效率并不高,有更高效的做法。比如negative sampling等等,下節(jié)課再提。

?
Lecture 1 - Introduction and Word Vectors P1 - 01:22:15
?

Q:請(qǐng)求更多的關(guān)于詞向量從被隨機(jī)的初始化到最終被習(xí)得的過(guò)程的細(xì)節(jié)。

A:總體的圖像就是像之前展示的那樣。先為每個(gè)詞初始化隨機(jī)的詞向量,然后使用迭代的算法,逐步地更新詞向量,讓他們?cè)陬A(yù)測(cè)上下文上越做越好。我們有了損失函數(shù)的梯度,就沿著梯度不斷向下走,使得loss最小,從而讓我們的詞向量更好。(似乎講了等于沒(méi)講?)

-------------------------------

2022-12-16 23:01

lecture 1 finished.

by Jason Hall

-------------------------------

【斯坦福CS224N】(2021|中英) 深度自然語(yǔ)言處理Natural Lan的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
霍州市| 政和县| 双柏县| 云林县| 梨树县| 安远县| 苏州市| 祁门县| 漠河县| 苗栗县| 甘孜| 永德县| 双辽市| 惠东县| 茂名市| 乌兰浩特市| 叙永县| 凤台县| 台北市| 晋城| 新野县| 承德市| 都兰县| 新干县| 邯郸县| 望奎县| 庆安县| 盖州市| 克什克腾旗| 忻城县| 若羌县| 阿拉善右旗| 昂仁县| 白城市| 安康市| 婺源县| 双城市| 朝阳市| 顺平县| 德化县| 吉安县|