最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Transformer 要占領(lǐng)地球了,大語(yǔ)言模型最全盤點(diǎn)!

2023-07-11 16:15 作者:挖貝網(wǎng)  | 我要投稿

隨著最近半年 ChatGPT 火爆全球,基于 Transformer 架構(gòu)的大語(yǔ)言模型(LLM)逐漸走入大眾視野,可以說(shuō),Transformer 在AI 領(lǐng)域的影響力絕不亞于變形金剛在科幻領(lǐng)域的影響力。

Transformer 的核心思想是使用自注意力機(jī)制(Self-Attention Mechanism)來(lái)建立序列之間的依賴關(guān)系。就在2年前,很多模型主要還是基于長(zhǎng)短期記憶(LSTM)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的其他變體,而如今大語(yǔ)言模型都是基于 Transformer 的注意力機(jī)制。AI領(lǐng)域從傳統(tǒng)機(jī)器學(xué)習(xí),到神經(jīng)網(wǎng)絡(luò),再到如今的 Transformer,正以井噴的勢(shì)頭快速發(fā)展。



人工智能發(fā)展方向

當(dāng)下大語(yǔ)言模型市場(chǎng)百(xuè)花(yǔ)齊(xīng)放(fēng),因此我們整理了一份可能是全網(wǎng)最全的大語(yǔ)言模型盤點(diǎn),以期大家抓住 AIGC 的時(shí)代脈搏。

閱讀和收藏本文,你將了解:

全球大語(yǔ)言模型發(fā)展脈絡(luò)和族譜矩陣

谷歌、微軟兩大陣營(yíng)大語(yǔ)言模型迭代歷程

全球和國(guó)內(nèi)主要大語(yǔ)言模型盤點(diǎn)

全球大語(yǔ)言模型發(fā)展脈絡(luò)

下圖展示了 2019 年以來(lái)百億參數(shù)規(guī)模的大語(yǔ)言模型發(fā)布的時(shí)間線,其中標(biāo)黃的大模型已開源??梢钥吹剑?022 年至今新模型層出不窮,同時(shí) OpenAI 和 Google 大模型迭代速度明顯高于其他廠商。






大語(yǔ)言模型發(fā)展趨勢(shì)

全球大語(yǔ)言模型族譜矩陣

下表展示了主要大語(yǔ)言模型的家族譜系,不同顏色代表不同的技術(shù)起源。橫軸為時(shí)間線,縱軸為模型訓(xùn)練的參數(shù)規(guī)模。自 2018 年以來(lái)大語(yǔ)言模型訓(xùn)練規(guī)模不斷膨脹,從參數(shù)規(guī)模來(lái)看 2022 年也是暴發(fā)的一年。



大語(yǔ)言模型參數(shù)規(guī)模象限



大語(yǔ)言模型技術(shù)路線族譜關(guān)系

巨頭對(duì)壘:谷歌與微軟競(jìng)速持續(xù)升級(jí)

22 年 11 月 OpenAI 發(fā)布基于 GPT-3.5 系列全新對(duì)話式 AI 模型 ChatGPT,此次迭代升級(jí)具備跨時(shí)代意義;今年 2 月微軟將 ChatGPT 接入 Bing,重新定義搜索引擎;3 月多模態(tài)大型語(yǔ)言模型 GPT-4 發(fā)布,在“理解+創(chuàng)造”上展現(xiàn)出更強(qiáng)的能力。

面對(duì) OpenAI 陸續(xù)推出的 GPT 系列,谷歌步步緊追,今年 2 月和 3 月分別推出對(duì)標(biāo) ChatGPT 的 Bard 和史上最大多模態(tài)具身視覺語(yǔ)言模型 PaLM-E;5 月 11 日谷歌正式打響“反擊戰(zhàn)”,發(fā)布大語(yǔ)言模型 PaLM2 直指 GPT-4 痛點(diǎn),同時(shí)在 25 余款應(yīng)用上接入 AI。



微軟vs.谷歌兩大陣營(yíng)發(fā)布升級(jí)

大語(yǔ)言模型訓(xùn)練數(shù)據(jù)源

通過(guò)大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)源,我們可以發(fā)現(xiàn)這些模型主要還是通過(guò)抓取網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行訓(xùn)練,GPT-3 在網(wǎng)頁(yè)的基礎(chǔ)上還加入了部分圖書信息。有趣的是 DeepMind 開發(fā)的 AlphaCode 訓(xùn)練數(shù)據(jù)源全部是代碼,可推測(cè)其在編程方面具備強(qiáng)大的能力。據(jù)了解,AlphaCode 在 2022 年參加了 Codeforces 舉行的 10 場(chǎng)編程比賽,排名前 54.3%,擊敗了 46% 的參賽者,Elo 評(píng)分 1238。



不同大語(yǔ)言模型訓(xùn)練數(shù)據(jù)源

大語(yǔ)言模型訓(xùn)練硬件資源

大規(guī)模語(yǔ)言訓(xùn)練對(duì)硬件資源消耗是十分巨大的,除了最早使用 GPU 作為訓(xùn)練芯片,現(xiàn)在不少大語(yǔ)言模型已經(jīng)開始使用 TPU 作為主要訓(xùn)練芯片。一方面,硬件的高速發(fā)展無(wú)疑提高了大語(yǔ)言模型的迭代效率;另一方面,大語(yǔ)言模型的激烈競(jìng)爭(zhēng)也導(dǎo)致了以芯片和服務(wù)器為主的硬件價(jià)格大漲。根據(jù)界面新聞,英偉達(dá) AI 旗艦芯片 H100 售價(jià)在多個(gè)渠道炒至 4 萬(wàn)美元, 相比此前零售商報(bào)價(jià) 3.6 萬(wàn)美元明顯提價(jià),而 1 萬(wàn)枚英偉達(dá) A100 芯片是開發(fā)大語(yǔ)言模型的算力門檻。



大語(yǔ)言模型訓(xùn)練硬件資源比較

全球主要大語(yǔ)言模型盤點(diǎn)

從全球范圍來(lái)看,大語(yǔ)言模型的主要發(fā)布機(jī)構(gòu)有 Google、OpenAI、Facebook、Microsoft,以及 Deepmind 和 EleutherAI。模型參數(shù)規(guī)模以百億級(jí)和千億級(jí)為主,技術(shù)架構(gòu)主要為 Encoder-Decoder。下表所列出的模型數(shù)量接近 100,實(shí)際上應(yīng)該會(huì)更多一些。



全球主要大語(yǔ)言模型比較

全球主要大語(yǔ)言模型盤點(diǎn)

國(guó)內(nèi)大語(yǔ)言模型盤點(diǎn)

當(dāng)然,大語(yǔ)言模型這把火也點(diǎn)燃了國(guó)內(nèi)科技公司對(duì)大語(yǔ)言模型的熱情,憑借前期自研或者開源模型的基礎(chǔ),目前國(guó)內(nèi)很多機(jī)構(gòu)都推出了大語(yǔ)言模型,不完全統(tǒng)計(jì)已超20家。





Transformer 要占領(lǐng)地球了,大語(yǔ)言模型最全盤點(diǎn)!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
霍林郭勒市| 永兴县| 孙吴县| 宜阳县| 绍兴市| 兴海县| 抚远县| 建水县| 修武县| 成都市| 类乌齐县| 凤城市| 望奎县| 进贤县| 嘉禾县| 柳河县| 安丘市| 鲜城| 收藏| 壤塘县| 阳春市| 万山特区| 石嘴山市| 青神县| 南川市| 游戏| 岗巴县| 奉新县| 太仆寺旗| 方正县| 姜堰市| 奉节县| 抚顺县| 鸡泽县| 汕尾市| 鹤壁市| 武义县| 贺兰县| 西盟| 沈丘县| 福安市|