細分領域功能型大模型改變世界


"大模型開源就是為了發(fā)展生態(tài)的,不是給你吃魚籽.

造生態(tài)就可以.
一是把llama 2 70b所實現(xiàn)的能力在更小規(guī)模上重現(xiàn),比如7b 1b 甚至576m, 手機上都能流暢運行.? llama以后升級了也重復這個過程.
二是訓練領域專用功能型大模型,比如數理化模型, stem模型等等, 反正就是發(fā)展生態(tài),?
這里使用的是分治算法思維,比如炒菜模型,種地模型,編程模型,
反正就是訓練一些小型的專用的模型,讓一個小模型在一個領域里精通,
最后將這些小模型合并到一起,組裝成大模型,也就是將多個領域的專家組合到一起.
現(xiàn)在根本都沒有什么生態(tài), 生態(tài)有了,需求才會產生,有需求才能賺到錢.
現(xiàn)在處于培育生態(tài)階段.
魚都沒長大,你就想著漁,自然啥都撈不著."
--------------
我在B站的評論.
---------------------------------

時代已變,
現(xiàn)在有很多人跟不上時代,
大多數人更不可能有超越時代的遠見.
比如功能型大模型,如果訓練一個精通某種編程語言的大模型,它完全可以成為這種語言的專家,
那些說程序員無法被替代的不過是意淫,他們可能根本沒用過ChatGPT,沒領教過ChatGPT編寫代碼,分析代碼,檢查錯誤的能力有多么強.
我這里描述的是一種AMD那種Chiplet的小芯片發(fā)展策略. 大模型也可以走這種發(fā)展道路,
集中力量辦大事,一個大模型對應一個細分領域,可以用一個llama2 70b來訓練這么一個細分領域,比如一種編程語言.
而不應把力量分散,用一個llama2 70b就訓練多種編程語言甚至跨領域,這樣訓練出來的模型,推理效果自然不盡如人意.
這個過程自然是無法與GPT3那種千億級模型,和GPT4那種萬億級模型相提并論的,同時也沒必要跟它們比.
何況這些都是私有大模型,發(fā)展不了多遠.

上面這是舉一種例,
我說的領域專用功能型大模型,還可以更小,比如1b 或百m,也應該更小,主要是為了能讓大模型達到專家能力的同時,
又能運行在各種小芯片上,比如嵌入式,
這樣就能讓生態(tài)如雨后春筍般發(fā)展起來,比如炒菜專用大模型,廚師大模型,種地大模型,種植大模型,無人機大模型,
現(xiàn)在這些相關的數據集是海量的,可以迅速地訓練出來,然后安裝到嵌入式里,你們自己想想,未來這方面的生態(tài)潛力是什么前景?
而我們人類社會的細分領域,人類文明發(fā)展到現(xiàn)在,沒有上千種也有上萬種了吧,
這些全都可以被大模型拿下,
因為大模型的本質就是神經元網絡啊,模仿人類的語言中樞之鏡像.
人類的細分領域全都可以抽象地概括為---某種語言!

比如木匠可以說是一個人精通了木工相關的行業(yè)語言,
石匠可以說是一個人精通了玩石頭相關玩法,
鐵匠可以說是精通了怎么打鐵,
這種匠就是一種語言,你可以想象為一種指令集,每一個指令相當于這種匠語言的某個發(fā)音和字詞,
一種指令集基本都有上百條指令,復雜的上千條,把幾十上百條指令根據工匠業(yè)務所需有機組合起來,就得到有限的語言集合,
而你學會了這種語言,你也就成為了這種匠人,或者換成現(xiàn)在的說法---專家.
既然是語言,那就為存儲到大模型里鋪平了道路,
因為大模型它是一種神經元網,人的語言中樞也是一種神經元網,
所以世界運行邏輯的底層代碼是邏輯相通的,你悟到了嗎,
那我上面說的各種匠也就能順理成章地成為領域專用功能型大模型.比如唱歌大模型,作曲大模型,作詞大模型,

而中文編程只是編程領域的一個細分領域,
若我們想實現(xiàn)這樣的中文漢字編程,那么我們只要訓練這樣一個功能型大模型就行了,讓它成為中文編程的程序員專家.
唯一的問題就是細分領域數據集的獲取問題,
而恰恰編程領域又有復制粘貼大法,什么意思呢?將已有的拉丁字母標識符代碼數據集替換為中文漢字不就行了嘛,
這些源碼甚至都是高質量數據集,
而我們只需要動動手指寫個簡單的替換程序,甚至替換腳本即可,替換規(guī)則完全可以用ChatGPT或llama來幫我們翻譯,
這樣程序源碼里的標識符(函數名 變量名 各種名 注釋什么的)就可以交給替換程序/替換腳本自動完成,
因為所有重復的事都可以用for while 遞歸來解決,工廠流水線到現(xiàn)在都還沒被程序替代,我是萬萬沒想到的,
但不要緊,現(xiàn)在大模型來了,進度只會更快.
再進一步,試想,若我們把llama這樣的開源大模型當做基座,然后配上AutoGPT,會帶來什么效果?
把基于開源大模型訓練的細分領域功能型大模型當做AutoGPT的基座呢?
AutoGPT就相當于給大模型配一個可以進行長期記憶的存儲器,讓大模型實現(xiàn)上下文相關的計算,直到完成一個目標.
這是不是相當于一把扳手或一把虎鉗?一套多功能螺絲刀?
而細分領域功能型大模型就是為了實現(xiàn)這樣的智能扳手. 為人所主導,根本不會產生智械危機.
細分領域功能型大模型從源頭上就是安全的.
