最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

關(guān)于大語言模型(LLMs)

2023-03-22 22:41 作者:PhotonC  | 我要投稿


  • LLMs以詞為單位生成文本。LLMs以Token為單位表示詞組的生成單位,生成完畢后將生成結(jié)果并入上文,再進(jìn)行下一次生成。

  • LLMs的“創(chuàng)造性”在于在選擇下文時(shí),隨機(jī)選擇分?jǐn)?shù)排名較低的token。chatgpt技術(shù)報(bào)告中采用“溫度參數(shù)”來控制排名較低的token被采用的頻率,結(jié)果顯示這樣的技術(shù)提升了其創(chuàng)造力。

  • LLMs的單詞生成能力:

    LLMs通過訓(xùn)練獲得了預(yù)測這類token序列概率估計(jì)值的能力,因此可以用于生成具有實(shí)際意義的文本內(nèi)容。

    • 基于字母:

      統(tǒng)計(jì)了足夠多的英文文本,獲得了字母的出現(xiàn)概率和字母序列的概率估計(jì),即n-gram概率【注:即第n個(gè)字母的概率分布取決于之前的n-1個(gè)字母】。

    • 基于token:

      統(tǒng)計(jì)大量英文語料中單詞的出現(xiàn)頻率【獨(dú)立的單詞的出現(xiàn)概率】和序列概率估計(jì)【給予已有的上文,當(dāng)前需要生成的單詞的概率】,

  • LLMs如何通過訓(xùn)練預(yù)測token序列概率估計(jì)值:

    LLMs通過巨大的參數(shù)量來對上文的下一個(gè)token概率值進(jìn)行預(yù)測。

    需要注意的是:

    • 降低對模型權(quán)重的參數(shù)精度要求,從而降低訓(xùn)練設(shè)備的性能要求。

    • 參照元胞自動(dòng)機(jī)這樣的計(jì)算系統(tǒng),在很多單獨(dú)的位上進(jìn)行并行操作。雖然這種機(jī)制下的參數(shù)優(yōu)化方式尚未被提出,但沒有理由認(rèn)為這是不可能的。

    • 采用漸進(jìn)式網(wǎng)絡(luò)重寫方式,將模型結(jié)構(gòu)也納入優(yōu)化范圍。即讓深度學(xué)習(xí)模型自己去學(xué)習(xí)得到一個(gè)合適的網(wǎng)絡(luò)結(jié)構(gòu)。

    • 將內(nèi)存和GPU/CPU單元結(jié)合,用分布式數(shù)據(jù)存取實(shí)現(xiàn)“存算一體”。這樣的方式能減少訓(xùn)練過程中的空閑時(shí)間,實(shí)現(xiàn)更高效的訓(xùn)練。

    • 可以通過在中間設(shè)計(jì)一個(gè)“瓶頸”,強(qiáng)制所有信息都要通過一個(gè)較小的中間神經(jīng)元數(shù)量,來壓縮的網(wǎng)絡(luò)的大小,同時(shí)不會(huì)太影響性能。

    • 無中間層的神經(jīng)網(wǎng)絡(luò)(感知機(jī))只能學(xué)習(xí)到線性規(guī)律。

    • 難以直接估計(jì)所需要的訓(xùn)練數(shù)據(jù)規(guī)模。

    • 通過遷移學(xué)習(xí)可以將已經(jīng)在另一個(gè)網(wǎng)絡(luò)中學(xué)習(xí)到的重要特征轉(zhuǎn)移過來,降低訓(xùn)練時(shí)間和訓(xùn)練數(shù)據(jù)規(guī)模要求。

    • 對某些任務(wù)來說可能需要將現(xiàn)有示例都重復(fù)的顯示給神經(jīng)網(wǎng)絡(luò),同時(shí)需要向神經(jīng)網(wǎng)絡(luò)展現(xiàn)示例的變化情況。這兩點(diǎn)可以通過數(shù)據(jù)的適量重復(fù)和數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)。

    • 通過無監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練的模型更容易獲取數(shù)據(jù)。LLMs一般具有無監(jiān)督學(xué)習(xí)的特性,只需要獲取一段文本并截?cái)嘈枰袛嗟囊徊糠旨纯伞?/p>

    • 神經(jīng)網(wǎng)絡(luò)通過激活函數(shù)獲得了處理非線性問題的能力

    • 神經(jīng)網(wǎng)絡(luò)隨著參數(shù)量的增長,有能夠處理更加復(fù)雜的問題的趨勢。

    • 神經(jīng)網(wǎng)絡(luò)由于其基本運(yùn)算單位太多,其具體工作原理是難以理解的。

      以圖像分類為例,低層神經(jīng)元輸出的語義特征圖可能尚且可以理解為輪廓或者是背景,而高層語義神經(jīng)元的輸出則完全無法為人類所理解。

    1. 神經(jīng)網(wǎng)絡(luò)的具體工作原理尚且無法準(zhǔn)確描述,不過人們通過實(shí)踐證明了這種工具通過某種方式捕捉到了“一種類似于人類的工作方式”。

      也許神經(jīng)網(wǎng)絡(luò)本質(zhì)上就是計(jì)算上不可約的【某些問題本質(zhì)上就無法有簡單的數(shù)學(xué)方法或者計(jì)算方法,無法取巧,比如總結(jié)出一種方便人自己理解或者計(jì)算的方式】。

    2. 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練范式基本上是通過大量的“輸入→輸出”來進(jìn)行學(xué)習(xí),以找到符合這些范例所蘊(yùn)藏的潛在規(guī)律,將這一規(guī)律內(nèi)化為極其復(fù)雜的模型參數(shù)。

    3. 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練本質(zhì)上是一門經(jīng)驗(yàn)學(xué)科。其調(diào)參、模型設(shè)計(jì)等各個(gè)步驟都是基于大量的實(shí)踐經(jīng)驗(yàn)而非數(shù)學(xué)上的理論指導(dǎo)。人們在各個(gè)領(lǐng)域的實(shí)踐過程中逐漸發(fā)現(xiàn)某一個(gè)模型結(jié)構(gòu)不僅僅只適用于一個(gè)領(lǐng)域的應(yīng)用?!吧窠?jīng)網(wǎng)絡(luò)可以捕捉相當(dāng)普遍的人類思考過程”,因此多模態(tài)成為日漸熱門的話題。

    4. 有幾個(gè)已經(jīng)被廢棄的理念:

      應(yīng)該向神經(jīng)網(wǎng)絡(luò)引入復(fù)雜的單獨(dú)組件,使其實(shí)際上顯式實(shí)現(xiàn)特定算法:這種做法在大多數(shù)情況下都不值得。應(yīng)該只處理簡單組件,讓其在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)自我組織

      應(yīng)該盡量減少神經(jīng)網(wǎng)絡(luò)的負(fù)擔(dān),對數(shù)據(jù)進(jìn)行預(yù)處理后讓神經(jīng)網(wǎng)絡(luò)處理高層特征:這種做法的效果顯著劣于直接輸入原始數(shù)據(jù)。使用“端到端”的方式的訓(xùn)練過程有助于神經(jīng)網(wǎng)絡(luò)獲取到更有效的中間特征和編碼。

    5. 關(guān)于針對特定任務(wù)到底需要多大的神經(jīng)網(wǎng)絡(luò):

      規(guī)模過小的神經(jīng)網(wǎng)絡(luò)的擬合能力受限,解決一個(gè)特定任務(wù)需要神經(jīng)網(wǎng)絡(luò)達(dá)到一定的規(guī)模。當(dāng)可以估計(jì)任務(wù)難度時(shí),可以參照現(xiàn)有的其他任務(wù)中的模型參數(shù)量確定網(wǎng)絡(luò)規(guī)模。但是總的來說,沒有一個(gè)定量的標(biāo)準(zhǔn)。

      網(wǎng)絡(luò)設(shè)計(jì)中的一些事實(shí):

      神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需要的數(shù)據(jù)規(guī)模:

      從原理上來講,規(guī)模越大的神經(jīng)網(wǎng)絡(luò)有潛力解決更復(fù)雜的問題。

    6. 訓(xùn)練神經(jīng)網(wǎng)絡(luò)是否有更好的方法

      目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要極大的計(jì)算量,主要是進(jìn)行神經(jīng)網(wǎng)絡(luò)中訓(xùn)練和推理過程中神經(jīng)元內(nèi)大量的矩陣運(yùn)算,因此其訓(xùn)練和推理速度受限制于GPU的性能。

      已經(jīng)證明在神經(jīng)網(wǎng)絡(luò)中高精度的數(shù)字是不必要的,只需要提供大量相互連接的簡短計(jì)算單元和一個(gè)足夠有效的參數(shù)優(yōu)化機(jī)制即可。從這一角度出發(fā)有一些可能的發(fā)展方向:

  • 足夠大的網(wǎng)絡(luò)可以做到任何事情?

    不可壓縮計(jì)算:

    指的是一些計(jì)算過程,無論掌握多少規(guī)律,都無法通過壓縮數(shù)據(jù)來簡化。這些計(jì)算過程需要通過明確地進(jìn)行計(jì)算才能得出結(jié)果,而無法通過人類直接思考來解決。計(jì)算不可簡化的過程仍然是計(jì)算不可簡化的,并且對于計(jì)算機(jī)來說在根本上仍然是困難的,即使計(jì)算機(jī)可以輕松地計(jì)算它們的各個(gè)步驟。

    神經(jīng)網(wǎng)絡(luò)的限制:

    是它們無法解決計(jì)算不可簡化的問題,即使它們可以輕松地計(jì)算這些問題的各個(gè)步驟。此外,神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練性和能力之間存在權(quán)衡,越想讓系統(tǒng)充分利用其計(jì)算能力,它就越會(huì)表現(xiàn)出計(jì)算不可簡化,越不容易訓(xùn)練。因此,神經(jīng)網(wǎng)絡(luò)可能無法解決屬于數(shù)學(xué)或計(jì)算科學(xué)范疇的問題,除非它們有效地“使用”一個(gè)“普通”的計(jì)算系統(tǒng)作為工具。

    大語言模型能做到任何事情?

    不能。之所以LLMs可以處理寫文章、回答問題這類問題,是因?yàn)檫@類問題本質(zhì)上來說并不處于不可簡化這一范疇;換句話來說,這些任務(wù)并不如我們所想的那樣困難。由于問題的不可簡化性質(zhì),單純的拓展模型規(guī)模是無法獲得人類歸納客觀規(guī)律,并發(fā)揮主觀能動(dòng)改造自然的能力的。

  • Embedding技術(shù)

    ChatGPT使用嵌入技術(shù)來改善文本生成效果。它使用一個(gè)大型的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)單詞之間的關(guān)系,并將它們嵌入到一個(gè)高維空間中。這使得相似的單詞在嵌入空間中更接近,而不相似的單詞則更遠(yuǎn)。

    對embedding概念的理解可以簡單的類比為“地圖“之于”現(xiàn)實(shí)地理情況“。盡管現(xiàn)實(shí)地理情況極其復(fù)雜,但通過顏色、等高線等方式,地圖可以最大化的表示地理信息。

    embedding層基本工作原理是將輸入數(shù)據(jù)轉(zhuǎn)換為稀疏詞向量矩陣,然后再通過一個(gè)可控制的embedding_size參數(shù)確定的轉(zhuǎn)換矩陣將其壓縮或者升維成embedding向量:

    WordSparseMatrix_%7Bm%2Cn%7D%5Ctimes%20EmbeddingParameterMatrix_%7Bn%2Cembedding%5C_size%7D%3DEmbeddingMatrix_%7Bm%2Cembedding%5C_size%7D

    這里的embedding_size就確定了詞向量被轉(zhuǎn)換后的維度。

  • embedding層通過矩陣相乘對原始數(shù)據(jù)進(jìn)行升維或者降維,起到一個(gè)“顯微鏡”的作用,使得模型能夠盡量發(fā)現(xiàn)足夠多的信息。

  • 關(guān)于ChatGPT的內(nèi)部結(jié)構(gòu)【待完善

    chatgpt本質(zhì)上是一個(gè)基于Transformer的神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)對組成文本的token組的不同部分加以不同的注意力,從而改善任務(wù)處理效果。

    chatgpt的三個(gè)基本階段:

    chatgpt中,該流程的每個(gè)部分都是由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的,所有權(quán)重都通過端到端的網(wǎng)絡(luò)訓(xùn)練確定。人類只需要設(shè)計(jì)其體系結(jié)構(gòu)。

    • 獲取迄今為止的文本對應(yīng)的token序列,找到合適的方式表示它們的embedding

    • 以神經(jīng)網(wǎng)絡(luò)方式從該embedding出發(fā),進(jìn)行操作生成新的embedding

    • 從生成的embedding尾部生成一個(gè)大約五萬個(gè)單位長度的數(shù)組,這些值對應(yīng)到不同的可能的下一個(gè)token的概率。


關(guān)于大語言模型(LLMs)的評論 (共 條)

分享到微博請遵守國家法律
镇远县| 淮北市| 北碚区| 清涧县| 恭城| 个旧市| 迭部县| 永春县| 牟定县| 思南县| 黔江区| 中阳县| 汉寿县| 宽甸| 桂林市| 新建县| 南雄市| 涡阳县| 思南县| 固安县| 北票市| 博野县| 武义县| 修水县| 高密市| 沁阳市| 阿鲁科尔沁旗| 清丰县| 嵊州市| 成都市| 海盐县| 梅河口市| 威信县| 延川县| 张家港市| 绍兴市| 蚌埠市| 运城市| 忻城县| 靖宇县| 常宁市|