【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(11)——谷歌PaLM 2,據(jù)說劍指GPT-4
簡單講一下PaLM 2吧。


1.PaLM->PaLM 2
首先先說說PaLM,PaLM的參數(shù)量是5400億,比1750億的GPT-3要大,架構(gòu)也是decoder-only,沒有開源。
PaLM至今仍然是transformer架構(gòu)模型中最大的一類,畢竟是采用了一些技巧來接近硬件極限的一個模型。再大就要MoE出手了,然而MoE是稀疏的,實際運行參數(shù)并不多,而且相關(guān)開發(fā)工具少(所以很多開源大模型不用MoE)
然而這篇論文真的是跟OpenAI學(xué)壞了,就是模型名+技術(shù)報告,雖然也不是一點技術(shù)細節(jié)沒提吧,但整體就是一個性能評估報告。

2.PaLM 2的相關(guān)信息
單純列舉幾點吧,主要是單純技術(shù)報告真的沒什么好看的(而且實際內(nèi)容不多,大部分都是附錄和參考文獻)
(1)PaLM 2是一個模型族,最大的PaLM 2-L也比540B的PaLM要小。理所當(dāng)然運算就快
(2)之所以不做更大是有原因的。之前就有一些研究表明很多大語言模型沒有得到充分的訓(xùn)練,或者說,數(shù)據(jù)量跟不上模型參數(shù)量的變化。因為更早之前一些研究表明數(shù)據(jù)增長比模型規(guī)模增長慢是更好的,然而新研究推翻了這一結(jié)論,谷歌研究表明確實兩者應(yīng)該1:1擴大。
(3)也就是說,PaLM 2的數(shù)據(jù)集比PaLM大得多。并且,PaLM 2的數(shù)據(jù)集包含了更多的語言和更少的英語占比,還開發(fā)了混合語言訓(xùn)練等方式使得模型跨語言能力更強
(4)如果說OpenAI很關(guān)心模型對話的流暢程度(ChatGPT的核心技術(shù)RLHF目的是與人類對齊,然對齊是有代價的,OpenAI稱之為對齊稅),谷歌還是LamDA開始的一貫作風(fēng)——死磕模型安全性與準確性。對于毒性內(nèi)容,PaLM 2有5步驟的檢測流程,依然喪心病狂
(5)接下來就是人民群眾喜聞樂見的模型PK了,PaLM 2在推理等方面相比PaLM有了長足的進步,也在很多單項上打敗了GPT-4。不過實際體驗如何還是要實踐檢驗。據(jù)說Bard底層已經(jīng)是PaLM 2了,有些人使用后說比GPT-4還是有些差距。