什么是大語言模型?
關(guān)于大語言模型是什么、為什么它們被使用、不同類型以及未來可能涉及的 LLM(大語言模型)應(yīng)用的基礎(chǔ)知識。
翻譯自 What Is a Large Language Model? 。

圖片來自 Pexels
首先,讓我們回答一個問題,“LLM 代表什么?” LLM 代表大語言模型(Large Language Model)。當然,這引出了一個非常重要的第二個問題,“大語言模型是什么?” 在本文中,我們將提供大語言模型的定義,并討論 LLM 的含義。使用這個資源來探討大語言模型是什么,LLM 在人工智能背景下是什么,為什么它們被使用,不同類型的大語言模型以及未來可能的發(fā)展。
LLM 或大語言模型
LLM 正成為開發(fā)人員和數(shù)據(jù)科學(xué)家之間的主要話題,他們熱衷于探索使用深度學(xué)習技術(shù)創(chuàng)建先進人工智能(AI)項目的新方法。流行的 LLM 包括 OpenAI 的 GPT、Google 的 PaLM2(其聊天產(chǎn)品 Bard 基于此),以及 Falcon;特別是 GPT 已成為全球現(xiàn)象。隨著這一話題變得越來越受歡迎,越來越多的人熟悉 LLM 代表大語言模型。
什么是 LLM?解釋大語言模型
大語言模型的定義:LLM 是一種以其巨大的規(guī)模為特征的語言模型,能夠包含數(shù)十億個參數(shù),構(gòu)建復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)由采用深度學(xué)習技術(shù)的 AI 算法驅(qū)動,并使用龐大的數(shù)據(jù)集來評估、規(guī)范和生成相關(guān)內(nèi)容,以及進行準確的預(yù)測。LLM 通常與生成式 AI 相關(guān)聯(lián),因為它們通常被設(shè)計用來生成基于文本的內(nèi)容。
與標準語言模型相比,LLM 處理極其龐大的數(shù)據(jù)集,這可以顯著增加 AI 模型的功能和能力。“大型”沒有固定的定義,但通常大語言模型至少包含十億個參數(shù)(機器學(xué)習變量)。
LLM 被稱為自然語言處理中的基礎(chǔ)模型,因為它們是一個單一模型,可以執(zhí)行其職責范圍內(nèi)的任何任務(wù)。LLM 起源于早期的 AI 模型,如 1966 年在美國麻省理工學(xué)院首次開發(fā)的 ELIZA 語言模型?,F(xiàn)代 LLM 在早期階段通過一組數(shù)據(jù)進行訓(xùn)練,然后使用各種技術(shù)(訓(xùn)練)來建立模型內(nèi)的關(guān)系并生成新內(nèi)容。
自然語言處理(NLP)應(yīng)用通常依賴于語言模型,允許用戶以自然語言輸入查詢,以生成響應(yīng)。
大語言模型的用途
LLM 用于什么?與所有 AI 系統(tǒng)一樣,大語言模型被構(gòu)建用于執(zhí)行一項功能 - 通常是幫助改善語法或語義的書面和口頭語言,并在易于理解的方式傳達思想和概念。
LLM 還可以在從互聯(lián)網(wǎng)收集的代碼存儲庫上進行訓(xùn)練,生成多種語言的相關(guān)代碼片段,以幫助開發(fā)人員簡化開發(fā)過程。開發(fā)人員可以簡單地將基于代碼的提示輸入 LLM 或基于 LLM 的工具(如 GitHub Copilot),然后生成所選擇編程語言中可用的代碼。
為什么使用 AI 大語言模型?
由于 AI 大語言模型不針對特定目標或任務(wù),因此它們可以應(yīng)用于幾乎任何項目。以 ChatGPT 為例,基于 LLM 的聊天機器人可以對大多數(shù)查詢生成響應(yīng),借助大量數(shù)據(jù)提供(大多是)事實性、有趣甚至有趣的答案。這種廣泛的潛力是 LLM 被使用的核心原因之一。
此外,與需要不斷精煉或優(yōu)化的標準模型不同,LLM只需要一個提示來執(zhí)行任務(wù),往往能夠提供與手頭問題相關(guān)的解決方案。
然而,盡管有眾多優(yōu)點,LLM 已知會遇到幻覺問題。這指的是生成的文本與任務(wù)幾乎沒有關(guān)聯(lián),通常包含不準確的信息,有時會產(chǎn)生毫無意義或與現(xiàn)實場景迥然不同的響應(yīng)。
常見的大語言模型用途和 LLM 項目包括:
LLM 可以在多種語言上進行訓(xùn)練,以快速翻譯其中一種語言為另一種語言。Falcon 就是一款具有這一功能的 LLM。
Bard 和 ChatGPT 是使用大語言模型的熱門文本生成工具的示例。這些 LLM 可以重新編寫一段文本以在語法上進行改進,或者賦予它不同的風格或語氣。它們還可以對內(nèi)容進行分類和分類,以使其更容易理解。
上述提到的 LLM 還可以總結(jié)大段文本或多個頁面的內(nèi)容,以幫助用戶進行研究。文本還可以進行情感分析,以幫助用戶理解其整體意圖:這對教育和學(xué)習非常有用。
LLM 被用來創(chuàng)建更好的對話聊天機器人,生成更自然、有用和富有見地的回答。這使用戶可以無拘束地討論腦海中的任何事情。
LLM 模型可以簡化并加速軟件開發(fā)過程,根據(jù)開發(fā)者的提示生成選擇的編程語言中的代碼片段。
不同類型的大語言模型
以下是四種不同類型的大語言模型的摘要,您可能會遇到這些類型。
1. Zero Shot
zero-shot 模型是標準的 LLM,意味著它經(jīng)過通用數(shù)據(jù)的訓(xùn)練,以在某種程度上提供用于常見用例的結(jié)果。這些模型不需要額外的訓(xùn)練。
2. 微調(diào)或領(lǐng)域特定(Fine Tuned or Domain Specific)
微調(diào)模型接受額外的訓(xùn)練,以擴展初始的 zero-shot 模型,以提高其效果。OpenAI Codex 就是一個例子,通常用作基于 GPT-3 的項目的自動完成編程工具。
3. 語言表示(Language Representation)
語言表示模型使用深度學(xué)習技術(shù)和變換器(產(chǎn)生生成式 AI 的架構(gòu)),適用于自然語言處理。這使得語言可以轉(zhuǎn)化為視覺媒體,如寫作。
4. 多模態(tài)(Multimodal)
多模態(tài) LLM 可以處理文本和圖像,而不像早期的 LLM 只能生成文本。GPT-4 就是一個例子,它是 GPT 的新型多模態(tài)版本。
大語言模型與其他機器學(xué)習模型的對比
要確定何時可以使用大語言模型而不是使用使用較小數(shù)據(jù)集的其他機器學(xué)習模型,重要的是要確定 LLM 與使用較小數(shù)據(jù)集的模型相比的優(yōu)勢和局限性。
LLM的優(yōu)勢
模型可以通過額外的訓(xùn)練進行微調(diào),以適應(yīng)特定目的。
LLM 可以執(zhí)行多個任務(wù),并用于各種部署。
這些模型可以輕松地在未標記的數(shù)據(jù)上進行訓(xùn)練。
LLM 生成快速響應(yīng),延遲低。
大量參數(shù)和訓(xùn)練數(shù)據(jù)意味著 LLM 可以訪問比標準模型更廣泛的知識庫,使其能夠生成更深入和復(fù)雜的響應(yīng)。
LLM 的局限性
開發(fā)成本可能會很高,因為需要昂貴的硬件。
LLM 可能具有高昂的運營成本。
LLM 因涉及數(shù)十億參數(shù)而極其復(fù)雜。
在某些情況下,很難確定 LLM 為何生成了一個結(jié)果。
LLM可能受到故障令牌的影響,這是導(dǎo)致故障的惡意提示。
在未標記數(shù)據(jù)上訓(xùn)練的模型可能具有一定程度的偏見。
LLM 有時可能會產(chǎn)生幻覺,即不準確的響應(yīng)。
結(jié)論
那么,什么是大語言模型?實際上,大語言模型可以是許多不同的東西,因為大語言模型的潛力是巨大的。這些模型有能力徹底改變各個領(lǐng)域,從自然語言處理到文本生成。然而,重要的是要注意,這些模型的真正潛力最終由開發(fā)和利用它們的人類塑造。
盡管人工智能、機器學(xué)習和大語言模型發(fā)展成為類似于科幻電影中描繪的那種有意識程序的想法可能是純粹的推測,但它們對我們的社會和產(chǎn)業(yè)的影響無疑將繼續(xù)增長。
肯定會受益于這種預(yù)測變化的行業(yè)包括技術(shù)、醫(yī)療保健、游戲、金融和機器人技術(shù) - 同時,更先進的模式正在擴展 LLM 的用例,現(xiàn)在可以實現(xiàn)從文本到 3D 和文本到視頻的轉(zhuǎn)換。
這可能會看到LLM用于設(shè)計機器人系統(tǒng)的復(fù)雜藍圖,或者生成視頻游戲中的3D角色和環(huán)境。與此同時,數(shù)字生物學(xué)的進步可能有助于設(shè)計能夠預(yù)測人體變化的模型,從而徹底改變了健康領(lǐng)域的科學(xué)研究。
隨著研究人員和工程師不斷拓展這些技術(shù)的邊界,我們可以期待看到更多令人著迷的進展和應(yīng)用。
