最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

自然語(yǔ)言處理(NLP)指南

2023-03-28 15:13 作者:魚仔說(shuō)CV  | 我要投稿

機(jī)器如何處理和理解人類語(yǔ)言

我們表達(dá)的一切(無(wú)論是口頭還是書面)都攜帶著大量的信息。我們選擇的主題,我們的語(yǔ)氣,我們選擇的詞語(yǔ),每一件事都增加了某種類型的信息,可以被解讀并從中提取價(jià)值。理論上,我們可以利用這些信息理解甚至預(yù)測(cè)人類行為。

但有一個(gè)問(wèn)題:一個(gè)人可能會(huì)在一份聲明中產(chǎn)生數(shù)百或數(shù)千個(gè)單詞,每個(gè)句子都有其相應(yīng)的復(fù)雜性。如果你想在一個(gè)給定的地理范圍內(nèi)擴(kuò)展和分析數(shù)百、數(shù)千或數(shù)百萬(wàn)的人或聲明,那么情況就不可收拾了。

從對(duì)話、聲明甚至推文中生成的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的例子。非結(jié)構(gòu)化數(shù)據(jù)并不完全符合關(guān)系數(shù)據(jù)庫(kù)的傳統(tǒng)行和列結(jié)構(gòu),而是代表了現(xiàn)實(shí)世界中可用的絕大多數(shù)數(shù)據(jù)。這是混亂和難以操縱的。然而,由于機(jī)器學(xué)習(xí)等學(xué)科的進(jìn)步,關(guān)于這個(gè)話題正在發(fā)生一場(chǎng)大革命。如今,人們不再試圖根據(jù)關(guān)鍵詞來(lái)解釋文本或演講(老式的機(jī)械方法),而是理解這些詞背后的含義(認(rèn)知方法)。這樣就有可能檢測(cè)出像反語(yǔ)這樣的修辭,甚至進(jìn)行情感分析。

它是一個(gè)專注于數(shù)據(jù)科學(xué)和人類語(yǔ)言之間的交互的學(xué)科,并且正在擴(kuò)展到許多行業(yè)。如今,由于數(shù)據(jù)訪問(wèn)的巨大改進(jìn)和計(jì)算能力的增強(qiáng),NLP正在蓬勃發(fā)展,這使得從業(yè)者能夠在醫(yī)療保健、媒體、金融和人力資源等領(lǐng)域取得有意義的成果。

NLP的使用案例

簡(jiǎn)單地說(shuō),NLP代表了像語(yǔ)音或文本這樣的自然人類語(yǔ)言的自動(dòng)處理,盡管這個(gè)概念本身很吸引人,但這項(xiàng)技術(shù)背后的真正價(jià)值來(lái)自用例。

NLP可以幫助你完成很多任務(wù),應(yīng)用領(lǐng)域似乎每天都在增加。讓我們舉一些例子:

  • NLP支持識(shí)別和疾病預(yù)測(cè)基于電子健康記錄和患者自己的講話。這種能力正在從心血管疾病到抑郁癥甚至精神分裂癥的健康狀況中進(jìn)行探索。例如,亞馬遜理解醫(yī)療是一種使用自然語(yǔ)言處理的服務(wù)提取疾病狀況、來(lái)自患者記錄、臨床試驗(yàn)報(bào)告和其他電子健康記錄的藥物和治療結(jié)果。

  • 組織可以通過(guò)識(shí)別和提取社交媒體等來(lái)源中的信息來(lái)確定客戶對(duì)服務(wù)或產(chǎn)品的看法。這情感分析可以提供大量關(guān)于客戶選擇及其決策驅(qū)動(dòng)因素的信息。

  • IBM的一位發(fā)明家發(fā)明了一種認(rèn)知助理這就像一個(gè)個(gè)性化的搜索引擎,它了解你的一切,然后在你需要的時(shí)候提醒你一個(gè)名字、一首歌或任何你想不起的東西。

  • 雅虎和谷歌等公司通過(guò)分析流經(jīng)其服務(wù)器的電子郵件中的文本,用NLP對(duì)你的電子郵件進(jìn)行過(guò)濾和分類阻止垃圾郵件在它們進(jìn)入你的收件箱之前。

  • 來(lái)幫忙識(shí)別假新聞,的麻省理工學(xué)院的NLP小組開發(fā)了一個(gè)新的系統(tǒng)來(lái)確定消息來(lái)源是否準(zhǔn)確或帶有政治偏見,檢測(cè)新聞來(lái)源是否可信。

  • 亞馬遜的Alexa和蘋果的Siri都是智能的例子語(yǔ)音驅(qū)動(dòng)界面它使用NLP來(lái)響應(yīng)語(yǔ)音提示,做任何事情,如找到特定的商店,告訴我們天氣預(yù)報(bào),建議去辦公室的最佳路線或打開家里的燈。

  • 洞察正在發(fā)生的事情和人們正在談?wù)摰脑掝}對(duì)于金融交易員。NLP被用來(lái)跟蹤新聞,報(bào)道,關(guān)于公司間可能合并的評(píng)論,一切都可以被整合到一個(gè)交易算法中以產(chǎn)生巨大的利潤(rùn)。記住:買謠言,賣新聞。

  • NLP也用于搜索和選擇階段人才招聘,識(shí)別潛在雇員的技能,并在他們活躍在就業(yè)市場(chǎng)之前發(fā)現(xiàn)前景。

  • 由IBM Watson NLP技術(shù)支持,法律化開發(fā)了一個(gè)自動(dòng)化例行程序的平臺(tái)訴訟任務(wù)并幫助法律團(tuán)隊(duì)節(jié)省時(shí)間、降低成本和轉(zhuǎn)移戰(zhàn)略重點(diǎn)。

NLP在20世紀(jì)80年代發(fā)展尤為迅速醫(yī)療保健行業(yè)。在醫(yī)療保健組織越來(lái)越多地采用電子健康記錄的同時(shí),這項(xiàng)技術(shù)正在改善護(hù)理服務(wù)、疾病診斷并降低成本。事實(shí)上,臨床記錄可以得到改善,這意味著患者可以通過(guò)更好的醫(yī)療保健得到更好的理解和受益。目標(biāo)應(yīng)該是優(yōu)化他們的體驗(yàn),一些組織已經(jīng)在這方面努力了。

1978-2018年期間PubMed中包含句子“自然語(yǔ)言處理”的出版物數(shù)量。截至2018年,PubMed包含超過(guò)2900萬(wàn)篇生物醫(yī)學(xué)文獻(xiàn)引用

像這樣的公司溫特萊特實(shí)驗(yàn)室通過(guò)語(yǔ)音監(jiān)測(cè)認(rèn)知障礙,在阿爾茨海默病的治療方面取得了巨大進(jìn)展,他們還可以支持各種中樞神經(jīng)系統(tǒng)疾病的臨床試驗(yàn)和研究。遵循類似的方法,斯坦福大學(xué)開發(fā)了Woebot,一個(gè)聊天機(jī)器人治療師目的是幫助患有焦慮癥和其他疾病的人。

但是很嚴(yán)肅爭(zhēng)論就是圍繞這個(gè)話題。幾年前,微軟證明了通過(guò)分析搜索引擎查詢的大量樣本,他們可以識(shí)別患有胰腺癌的互聯(lián)網(wǎng)用戶甚至在他們接受疾病診斷之前。用戶對(duì)這樣的診斷會(huì)有什么反應(yīng)?如果你被檢測(cè)為假陽(yáng)性會(huì)怎么樣?(意思是即使你沒(méi)有患病,也可以被診斷出患有這種疾病)。這讓人想起了谷歌流感趨勢(shì)的案例,該趨勢(shì)在2009年被宣布能夠預(yù)測(cè)流感,但后來(lái)由于準(zhǔn)確性低和無(wú)法滿足其預(yù)測(cè)率而消失。

NLP可能是未來(lái)有效臨床支持的關(guān)鍵,但短期內(nèi)仍有許多挑戰(zhàn)要面對(duì)。

給你的非NLP朋友留下深刻印象的基本NLP

我們現(xiàn)在面對(duì)的NLP的主要缺點(diǎn)是語(yǔ)言非常復(fù)雜。理解和操作語(yǔ)言的過(guò)程極其復(fù)雜,因此在將所有東西結(jié)合在一起之前,通常會(huì)使用不同的技術(shù)來(lái)應(yīng)對(duì)不同的挑戰(zhàn)。像Python或R這樣的編程語(yǔ)言經(jīng)常被用來(lái)執(zhí)行這些技術(shù),但是在深入研究代碼行之前(這將是另一篇文章的主題),理解它們下面的概念是很重要的。讓我們總結(jié)并解釋一下NLP中定義術(shù)語(yǔ)詞匯表時(shí)最常用的一些算法:

一袋單詞

是一個(gè)常用的模型,允許您計(jì)算一段文本中的所有單詞?;旧希鼮榫渥踊蛭臋n創(chuàng)建一個(gè)出現(xiàn)矩陣,不考慮語(yǔ)法和詞序。這些詞頻或出現(xiàn)次數(shù)然后被用作訓(xùn)練分類器的特征。

舉個(gè)簡(jiǎn)短的例子,我引用了甲殼蟲樂(lè)隊(duì)的歌曲《穿越宇宙》的第一句話:

文字像無(wú)盡的雨水一樣流入紙杯,它們滑過(guò),滑過(guò)宇宙

現(xiàn)在讓我們數(shù)數(shù)單詞:

這種方法可能反映了幾個(gè)缺點(diǎn),如缺乏語(yǔ)義和上下文,以及阻止單詞(如“the”或“a”)的事實(shí)給分析增加了噪聲,并且一些單詞沒(méi)有相應(yīng)地加權(quán)(“universe”的權(quán)重小于單詞“them”)。

為了解決這個(gè)問(wèn)題,一種方法是根據(jù)單詞在所有文本(不僅僅是我們正在分析的文本)中出現(xiàn)的頻率來(lái)重新調(diào)整單詞的頻率,以便像“the”這樣在其他文本中也經(jīng)常出現(xiàn)的頻繁單詞的分?jǐn)?shù)會(huì)受到懲罰。這種評(píng)分方法被稱為“詞頻—逆文檔頻率”(TFIDF),并通過(guò)權(quán)重改進(jìn)單詞包。通過(guò)TFIDF,文本中頻繁出現(xiàn)的術(shù)語(yǔ)會(huì)得到“獎(jiǎng)勵(lì)”(如我們示例中的單詞“他們”),但如果這些術(shù)語(yǔ)在我們包含在算法中的其他文本中頻繁出現(xiàn),它們也會(huì)受到“懲罰”。相反,這種方法突出顯示并“獎(jiǎng)勵(lì)”考慮所有文本的獨(dú)特或罕見的術(shù)語(yǔ)。然而,這種方法仍然沒(méi)有上下文和語(yǔ)義。

標(biāo)記化

是將連續(xù)文本分割成句子和單詞的過(guò)程。本質(zhì)上,它的任務(wù)是把一個(gè)文本切割成片段,稱為代幣,同時(shí)扔掉某些字符,比如標(biāo)點(diǎn)符號(hào)。按照我們的例子,標(biāo)記化的結(jié)果將是:

很簡(jiǎn)單,對(duì)吧?雖然在這種情況下,以及在像英語(yǔ)這樣的用空格分隔單詞的語(yǔ)言(稱為分段語(yǔ)言)中,這看起來(lái)很基本,但并不是所有語(yǔ)言的行為都是一樣的,如果你仔細(xì)想想,空格本身并不足以讓英語(yǔ)執(zhí)行正確的標(biāo)記化。在空格處進(jìn)行拆分可能會(huì)將應(yīng)該被視為一個(gè)標(biāo)記的內(nèi)容分開,例如某些名稱(例如舊金山或紐約)或借用的外國(guó)短語(yǔ)(例如自由放任)。

標(biāo)記化也可以刪除標(biāo)點(diǎn)符號(hào)使正確的分詞變得容易,但也可能引發(fā)復(fù)雜情況。對(duì)于縮寫后面的句點(diǎn)(例如dr .),該縮寫后面的句點(diǎn)應(yīng)被視為同一令牌的一部分,不能刪除。

在處理包含大量連字符、括號(hào)和其他標(biāo)點(diǎn)符號(hào)的生物醫(yī)學(xué)文本領(lǐng)域時(shí),標(biāo)記化過(guò)程可能會(huì)特別成問(wèn)題。

關(guān)于標(biāo)記化的更深入的細(xì)節(jié),您可以在這篇文章。

停止單詞刪除

包括去掉英語(yǔ)中常見的冠詞、代詞和介詞,如“and”、“the”或“to”。在該過(guò)程中,一些看起來(lái)對(duì)NLP目標(biāo)提供很少或沒(méi)有價(jià)值的非常常見的單詞被過(guò)濾并從要處理的文本中排除,因此移除了對(duì)相應(yīng)文本沒(méi)有信息性的廣泛和頻繁的術(shù)語(yǔ)。

通過(guò)在預(yù)定義的關(guān)鍵字列表中執(zhí)行查找,可以安全地忽略停用詞,從而釋放數(shù)據(jù)庫(kù)空間并縮短處理時(shí)間。

沒(méi)有通用的停用詞列表。這些可以預(yù)先選擇或從頭開始構(gòu)建。一種可能的方法是從采用預(yù)定義的停用詞開始,然后將詞添加到列表中。然而,似乎過(guò)去的總趨勢(shì)是從使用大的標(biāo)準(zhǔn)停用詞表到根本不使用詞表。

問(wèn)題是停用詞刪除可以刪除相關(guān)信息并修改給定句子中的上下文。例如,如果我們正在執(zhí)行情感分析,如果我們刪除了像“不”這樣的停用詞,我們可能會(huì)使我們的算法偏離軌道。在這些情況下,您可以選擇一個(gè)最小的停用詞列表,并根據(jù)您的特定目標(biāo)添加額外的術(shù)語(yǔ)。

堵塞物

指的是為了去除詞綴(詞根的詞匯附加物)而對(duì)單詞的結(jié)尾或開頭進(jìn)行切片的過(guò)程。

附在單詞開頭的詞綴稱為前綴(如“天體生物學(xué)”一詞中的“astro”)而附在詞末的稱為后綴(如“有幫助”一詞中的“ful”)。

問(wèn)題是詞綴可以創(chuàng)造或擴(kuò)展同一個(gè)單詞的新形式(稱為屈曲的詞綴),甚至自己創(chuàng)造新詞(稱為誘導(dǎo)的詞綴)。在英語(yǔ)中,前綴總是派生的(詞綴創(chuàng)造了一個(gè)新詞,如單詞“生態(tài)系統(tǒng)”中的前綴“生態(tài)”),但后綴可以是派生的(詞綴創(chuàng)造了一個(gè)新詞,如單詞“吉他手”中的后綴“ist”)或屈折的(詞綴創(chuàng)造了一個(gè)新的單詞形式,如單詞“faster”中的后綴“er”)。

好的,那么我們?nèi)绾螀^(qū)分這兩者的不同并切掉正確的部分呢?


一種可能的方法是考慮常見詞綴和規(guī)則的列表(Python和R語(yǔ)言有不同的包含詞綴和方法的庫(kù))并基于它們執(zhí)行詞干提取,但當(dāng)然這種方法存在局限性。由于詞干分析器使用算法方法,詞干分析過(guò)程的結(jié)果可能不是一個(gè)實(shí)際的單詞,甚至不會(huì)改變單詞(和句子)的意思。為了抵消這種影響,您可以通過(guò)添加或刪除詞綴和規(guī)則來(lái)編輯那些預(yù)定義的方法,但是您必須考慮到,您可能在一個(gè)方面提高了性能,而在另一個(gè)方面卻降低了性能??傄v觀全局,測(cè)試你的模型的性能。

那么,如果詞干有嚴(yán)重的局限性,我們?yōu)槭裁匆褂盟??首先,它可以用?lái)糾正單詞的拼寫錯(cuò)誤。詞干分析器使用簡(jiǎn)單,運(yùn)行速度非???/strong>(它們?cè)谝粋€(gè)字符串上執(zhí)行簡(jiǎn)單的操作),如果速度和性能在NLP模型中很重要,那么詞干化肯定是一條路要走。請(qǐng)記住,我們使用它的目的是提高我們的表現(xiàn),而不是作為一個(gè)語(yǔ)法練習(xí)。

詞匯化

目標(biāo)是將一個(gè)單詞簡(jiǎn)化為其基本形式,并將同一個(gè)單詞的不同形式組合在一起。例如,將過(guò)去時(shí)態(tài)的動(dòng)詞改為現(xiàn)在時(shí)態(tài)(如“got”改為“go”),統(tǒng)一同義詞(如“best”改為“good”),從而規(guī)范與詞根意義相近的詞。雖然它似乎與詞干化過(guò)程密切相關(guān),但詞匯化使用不同的方法來(lái)獲得單詞的詞根形式。

詞匯化將單詞解析為它們的詞典形式(稱為引理)為此它需要詳細(xì)的字典,算法可以在字典中查找單詞并將單詞鏈接到它們相應(yīng)的詞條。

例如,單詞“跑步”,“跑步”和“冉”是這個(gè)詞的所有形式"運(yùn)行",所以”運(yùn)行"是前面所有詞的引理。

詞匯化還考慮了單詞的上下文,以便解決其他問(wèn)題,如歧義消除,這意味著它可以根據(jù)特定的上下文來(lái)區(qū)分具有不同含義的相同單詞。想想像“蝙蝠”(可以對(duì)應(yīng)于動(dòng)物或棒球中使用的金屬/木制球桿)或“銀行”(對(duì)應(yīng)于金融機(jī)構(gòu)或水體旁邊的土地)這樣的詞。通過(guò)為一個(gè)單詞(無(wú)論是名詞、動(dòng)詞等等)提供一個(gè)詞性參數(shù),就有可能為該單詞在句子中定義一個(gè)角色并消除歧義。

正如您可能已經(jīng)想到的,與執(zhí)行詞干處理相比,詞匯化是一項(xiàng)更加耗費(fèi)資源的任務(wù)。同時(shí),因?yàn)樗仍~干提取方法需要更多的語(yǔ)言結(jié)構(gòu)知識(shí),所以它需要更多的計(jì)算能力比建立或修改詞干算法更重要。

主題建模

是一種揭示文本或文檔集合中隱藏結(jié)構(gòu)的方法。本質(zhì)上,它對(duì)文本進(jìn)行聚類,根據(jù)內(nèi)容發(fā)現(xiàn)潛在主題,處理單個(gè)單詞,并根據(jù)它們的分布為它們賦值。這種技術(shù)是基于這樣的假設(shè),即每個(gè)文檔都是由主題混合而成的,每個(gè)主題都是由一組單詞組成的,這意味著如果我們能發(fā)現(xiàn)這些隱藏的主題,我們就能解開文本的含義。

從主題建模技術(shù)的范圍來(lái)看,潛在狄利克雷分配可能是最常用的。這種相對(duì)較新的算法(發(fā)明于不到20年前)作為一種無(wú)監(jiān)督的學(xué)習(xí)方法,可以發(fā)現(xiàn)一組文檔背后的不同主題。在…里無(wú)監(jiān)督學(xué)習(xí)像這樣的方法,沒(méi)有輸出變量來(lái)指導(dǎo)學(xué)習(xí)過(guò)程,數(shù)據(jù)由算法探索以發(fā)現(xiàn)模式。更具體地說(shuō),LDA通過(guò)以下方式查找相關(guān)單詞組:

  1. 將每個(gè)單詞分配給一個(gè)隨機(jī)的主題,用戶可以定義希望發(fā)現(xiàn)的主題數(shù)量。您不需要定義主題本身(您只需要定義主題的數(shù)量),算法會(huì)將所有文檔映射到這些主題,使得每個(gè)文檔中的單詞大部分都被這些虛構(gòu)的主題捕獲。

  2. 該算法迭代地遍歷每個(gè)單詞,并且考慮單詞屬于主題的概率以及文檔將由主題生成的概率,將單詞重新分配給主題。這些概率被計(jì)算多次,直到算法收斂。

與其他聚類算法不同,如k均值執(zhí)行硬聚類(其中主題是不連貫的),LDA將每個(gè)文檔分配給主題的混合,這意味著每個(gè)文檔可以由一個(gè)或多個(gè)主題來(lái)描述(例如,文檔1由70%的主題A、20%的主題B和10%的主題C來(lái)描述)并反映更真實(shí)的結(jié)果。

主題建模對(duì)于文本分類、構(gòu)建推薦系統(tǒng)(例如,根據(jù)你過(guò)去的閱讀向你推薦書籍)甚至檢測(cè)在線出版物的趨勢(shì)都非常有用。


自然語(yǔ)言處理(NLP)指南的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
简阳市| 孝义市| 新余市| 永清县| 黔江区| 贺兰县| 弥勒县| 华亭县| 兰考县| 遂川县| 江北区| 平乐县| 凤阳县| 元氏县| 靖宇县| 惠东县| 平果县| 钟山县| 许昌市| 定兴县| 巴青县| 衡东县| 鲁甸县| 农安县| 射洪县| 栖霞市| 安塞县| 道真| 曲麻莱县| 诸城市| 长汀县| 綦江县| 寿宁县| 尼勒克县| 绥芬河市| 清涧县| 墨玉县| 靖江市| 武城县| 和硕县| 固阳县|