【AI雜談】影實與大模型研究
熟悉我的人可能知道,我這人非常喜歡把事物聯系起來(胡亂)思考,對于影實,也在動態(tài)等各種地方嘗試和大模型建立聯系了。這次我們來談談影實戰(zhàn)力問題。
很久之前,有一個從小就擁有極其恐怖能力的女孩,世人稱之為災厄魔女奧羅拉,后來因為魔力失控,被稱為魔人迪亞波羅,三英雄合力封印了魔人迪亞波羅,但是勝利果實卻被迪亞波羅斯教團(當然,從一開始奧羅拉和三英雄也都是某個組織的實驗體了,這個團體基本認為是教團的前身)竊取,他們了壟斷迪亞波羅斯之滴,擁有了恐怖的實力。三英雄也是移植了魔人細胞的實驗體,她們的女性后代也收到血脈的約束,魔力隨時可能暴走(一支表現為惡魔憑依,一支表現為吸血鬼,主要是前者),但一旦她們能夠控制住自己的魔力,將會成為教團的潛在威脅,所以教團一方面散布“惡魔憑依者”是邪惡的象征、是一種詛咒的言論,一邊雇傭“盜賊”從各地把這些惡魔憑依收集起來,防止她們搞事情(所以可以看出來,至少三英雄應該是從教團前身脫身并誕生了不少后代的)。同時,教團也觀測其他世界,可以看到,即使是教團圓桌干部,很多人的強度依然有限,還是要靠各種“召喚物”。
總之,奧羅拉和教團主打一個大力磚飛。
教團幾乎是從勝利走向勝利,他們在逐漸控制各個王國的王族和貴族,然后一個中二、魔怔、神經病、但是對自己的目標堅定不移的純粹之人轉生到了這個世界,他的身體素質并不出眾,魔力量甚至還不及某個“完美超人”,但正如他前世一直在做的那樣——認清自己的優(yōu)勢和劣勢,找到一條最適合自己的出路,于是創(chuàng)立了凡人之劍(雖然最強的還是空手格斗技)、魔力壓縮、魔力控制三個流派,每個流派都是理論上任何人都可以學得來的,但每一個都千錘百煉。
他的經典戰(zhàn)斗方法分為兩個階段:優(yōu)化階段和展示階段。優(yōu)化階段的目標是在交戰(zhàn)中完全認清對手,然后找到一個使用最小代價(最小的斬擊幅度、最小的魔力使用量等)戰(zhàn)勝對手的方法,然后在對手開始“只不過技術強而已”這樣嘴硬的時候再展示讓對手望塵莫及的逆天魔力量(就是把壓縮的魔力解壓縮出去),只能說,確實很裝。
OK,回歸大模型的事情,我們研究大模型究竟在研究什么呢?
我們知道目前ChatGPT和GPT-4依然是第一梯隊的模型,目前仍然沒有一個模型能夠在綜合實力上戰(zhàn)勝它們(某些領域模型能戰(zhàn)勝是很正常的),龐大的參數量依然是一個很重要的秘訣,畢竟GPT-3本身從技術上來說并不復雜,也沒有用很先進的優(yōu)化技術。
當然,也不是說參數量上去模型就一定強的,現在我已知最大模型有10T的參數量,比GPT-3高兩個數量級,但不是最強的模型。其中涉及到的東西很多,包括超參數的調試、并行訓練優(yōu)化等等
當然大部分人和實驗室是訓練不起那么大的模型的(沒錯,就是本人?。阅茏龅木褪遣粩鄡?yōu)化大模型訓練的技術,探索如何使用更少的訓練數據、更優(yōu)秀的訓練技巧等來提升模型的表現。這些技術通常是有很長的延后性的,所以不能直接用到更大的模型中,但仍然能提供很好的方法庫。
然后再說說壓縮(這里說了就不單獨發(fā)專欄了,不愧是我),現在,語言模型訓練的壓縮視角是比較火的,就是說語言模型在做的很重要的一件事情就是“壓縮知識”,我們知道,一般大模型的訓練語料是比語言模型的參數量還要大幾個數量級的,模型只有能找到一個有效的方法壓縮這些知識,才能做到流暢的輸出,現在很多大模型優(yōu)化方法也都是在找一種更高效壓縮的方法,這樣才能在盡可能小的模型中塞進去更多的知識。
據說10.24星火和文心一言都有更新,文心一言4.0更是直言要對標GPT-4,結果如何我們就拭目以待吧