技術(shù)科普|什么是LLM(大語言模型)?
2023-06-28 17:15 作者:翻譯技術(shù)點(diǎn)津 | 我要投稿
近年來人工智能(AI)領(lǐng)域經(jīng)歷了巨大的增長,而自然語言處理(NLP)更是其中一個取得快速進(jìn)展的領(lǐng)域。NLP中最重要的發(fā)展便是大語言模型(LLM)。
大語言模型的定義及核心
大語言模型(英文:Large Language Model,縮寫LLM),也稱大型語言模型,是一種基于機(jī)器學(xué)習(xí)和自然語言處理技術(shù)的模型,它通過對大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,來學(xué)習(xí)服務(wù)人類語言理解和生成的能力。LLM的核心思想是通過大規(guī)模的無監(jiān)督訓(xùn)練來學(xué)習(xí)自然語言的模式和語言結(jié)構(gòu),這在一定程度上能夠模擬人類的語言認(rèn)知和生成過程。與傳統(tǒng)的NLP模型相比,LLM能夠更好地理解和生成自然文本,同時還能夠表現(xiàn)出一定的邏輯思維和推理能力。
大語言模型如何工作
大語言模型從大量數(shù)據(jù)中學(xué)習(xí)。 顧名思義,LLM的核心是它所訓(xùn)練的數(shù)據(jù)集的大小。但隨著人工智能的發(fā)展,“大”的定義也在不斷擴(kuò)大。
現(xiàn)在,大型語言模型通常是在足夠大的數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集幾乎可以包含很長一段時間內(nèi)在互聯(lián)網(wǎng)上編寫的所有內(nèi)容。
如此大量的文本被輸入到使用無監(jiān)督學(xué)習(xí)的AI算法中——當(dāng)一個模型被賦予一個數(shù)據(jù)集而沒有關(guān)于如何處理它的明確指示時。 通過這種方法,大型語言模型可以學(xué)習(xí)單詞,以及它們之間的關(guān)系和背后的概念。 例如,它可以根據(jù)上下文學(xué)習(xí)區(qū)分“bark”一詞的兩種含義。
正如掌握一門語言的人可以猜測句子或段落中接下來會出現(xiàn)什么——甚至自己想出新詞或概念——大型語言模型可以應(yīng)用其知識來預(yù)測和生成內(nèi)容。
大型語言模型也可以針對特定用例進(jìn)行定制,包括通過微調(diào)或提示調(diào)整等技術(shù),這是為模型提供少量數(shù)據(jù)以供關(guān)注的過程,以針對特定應(yīng)用對其進(jìn)行訓(xùn)練。
由于其在并行處理序列方面的計(jì)算效率,transformer模型架構(gòu)是最大和最強(qiáng)大的LLM背后的構(gòu)建塊。
說明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請后臺聯(lián)系小編刪除。
- END -
轉(zhuǎn)載來源:夸克——參考消息
轉(zhuǎn)載編輯:田貝西
審核:李瑩 程海東 李倩楠 段明貴