散文網(wǎng) » 生活 »日常 » Transformer 要占領(lǐng)地球了，大語(yǔ)言模型最全盤點(diǎn)！

Transformer 要占領(lǐng)地球了，大語(yǔ)言模型最全盤點(diǎn)！

2023-07-11 16:15 作者:挖貝網(wǎng) 0人讀過(guò) | 我要投稿

隨著最近半年 ChatGPT 火爆全球，基于 Transformer 架構(gòu)的大語(yǔ)言模型（LLM）逐漸走入大眾視野，可以說(shuō)，Transformer 在AI 領(lǐng)域的影響力絕不亞于變形金剛在科幻領(lǐng)域的影響力。

Transformer 的核心思想是使用自注意力機(jī)制（Self-Attention Mechanism）來(lái)建立序列之間的依賴關(guān)系。就在2年前，很多模型主要還是基于長(zhǎng)短期記憶（LSTM）和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的其他變體，而如今大語(yǔ)言模型都是基于 Transformer 的注意力機(jī)制。AI領(lǐng)域從傳統(tǒng)機(jī)器學(xué)習(xí)，到神經(jīng)網(wǎng)絡(luò)，再到如今的 Transformer，正以井噴的勢(shì)頭快速發(fā)展。

人工智能發(fā)展方向

當(dāng)下大語(yǔ)言模型市場(chǎng)百(xuè)花(yǔ)齊(xīng)放(fēng)，因此我們整理了一份可能是全網(wǎng)最全的大語(yǔ)言模型盤點(diǎn)，以期大家抓住 AIGC 的時(shí)代脈搏。

閱讀和收藏本文，你將了解：

全球大語(yǔ)言模型發(fā)展脈絡(luò)和族譜矩陣

谷歌、微軟兩大陣營(yíng)大語(yǔ)言模型迭代歷程

全球和國(guó)內(nèi)主要大語(yǔ)言模型盤點(diǎn)

全球大語(yǔ)言模型發(fā)展脈絡(luò)

下圖展示了 2019 年以來(lái)百億參數(shù)規(guī)模的大語(yǔ)言模型發(fā)布的時(shí)間線，其中標(biāo)黃的大模型已開源?？梢钥吹剑?022 年至今新模型層出不窮，同時(shí) OpenAI 和 Google 大模型迭代速度明顯高于其他廠商。

大語(yǔ)言模型發(fā)展趨勢(shì)

全球大語(yǔ)言模型族譜矩陣

下表展示了主要大語(yǔ)言模型的家族譜系，不同顏色代表不同的技術(shù)起源。橫軸為時(shí)間線，縱軸為模型訓(xùn)練的參數(shù)規(guī)模。自 2018 年以來(lái)大語(yǔ)言模型訓(xùn)練規(guī)模不斷膨脹，從參數(shù)規(guī)模來(lái)看 2022 年也是暴發(fā)的一年。

大語(yǔ)言模型參數(shù)規(guī)模象限

大語(yǔ)言模型技術(shù)路線族譜關(guān)系

巨頭對(duì)壘：谷歌與微軟競(jìng)速持續(xù)升級(jí)

22 年 11 月 OpenAI 發(fā)布基于 GPT-3.5 系列全新對(duì)話式 AI 模型 ChatGPT，此次迭代升級(jí)具備跨時(shí)代意義；今年 2 月微軟將 ChatGPT 接入 Bing，重新定義搜索引擎；3 月多模態(tài)大型語(yǔ)言模型 GPT-4 發(fā)布，在“理解+創(chuàng)造”上展現(xiàn)出更強(qiáng)的能力。

面對(duì) OpenAI 陸續(xù)推出的 GPT 系列，谷歌步步緊追，今年 2 月和 3 月分別推出對(duì)標(biāo) ChatGPT 的 Bard 和史上最大多模態(tài)具身視覺語(yǔ)言模型 PaLM-E；5 月 11 日谷歌正式打響“反擊戰(zhàn)”，發(fā)布大語(yǔ)言模型 PaLM2 直指 GPT-4 痛點(diǎn)，同時(shí)在 25 余款應(yīng)用上接入 AI。

微軟vs.谷歌兩大陣營(yíng)發(fā)布升級(jí)

大語(yǔ)言模型訓(xùn)練數(shù)據(jù)源

通過(guò)大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)源，我們可以發(fā)現(xiàn)這些模型主要還是通過(guò)抓取網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行訓(xùn)練，GPT-3 在網(wǎng)頁(yè)的基礎(chǔ)上還加入了部分圖書信息。有趣的是 DeepMind 開發(fā)的 AlphaCode 訓(xùn)練數(shù)據(jù)源全部是代碼，可推測(cè)其在編程方面具備強(qiáng)大的能力。據(jù)了解，AlphaCode 在 2022 年參加了 Codeforces 舉行的 10 場(chǎng)編程比賽，排名前 54.3%，擊敗了 46% 的參賽者，Elo 評(píng)分 1238。

不同大語(yǔ)言模型訓(xùn)練數(shù)據(jù)源

大語(yǔ)言模型訓(xùn)練硬件資源

大規(guī)模語(yǔ)言訓(xùn)練對(duì)硬件資源消耗是十分巨大的，除了最早使用 GPU 作為訓(xùn)練芯片，現(xiàn)在不少大語(yǔ)言模型已經(jīng)開始使用 TPU 作為主要訓(xùn)練芯片。一方面，硬件的高速發(fā)展無(wú)疑提高了大語(yǔ)言模型的迭代效率；另一方面，大語(yǔ)言模型的激烈競(jìng)爭(zhēng)也導(dǎo)致了以芯片和服務(wù)器為主的硬件價(jià)格大漲。根據(jù)界面新聞，英偉達(dá) AI 旗艦芯片 H100 售價(jià)在多個(gè)渠道炒至 4 萬(wàn)美元，相比此前零售商報(bào)價(jià) 3.6 萬(wàn)美元明顯提價(jià)，而 1 萬(wàn)枚英偉達(dá) A100 芯片是開發(fā)大語(yǔ)言模型的算力門檻。

大語(yǔ)言模型訓(xùn)練硬件資源比較

全球主要大語(yǔ)言模型盤點(diǎn)

從全球范圍來(lái)看，大語(yǔ)言模型的主要發(fā)布機(jī)構(gòu)有 Google、OpenAI、Facebook、Microsoft，以及 Deepmind 和 EleutherAI。模型參數(shù)規(guī)模以百億級(jí)和千億級(jí)為主，技術(shù)架構(gòu)主要為 Encoder-Decoder。下表所列出的模型數(shù)量接近 100，實(shí)際上應(yīng)該會(huì)更多一些。