【花師小哲】雜談——大模型和小模型雜談
淺談一下大模型與小模型,也是師兄昨晚在群里發(fā)表了一些看法,于是我也來寫一點。個人看法。
直接上結論:大模型要發(fā)展,小模型也要發(fā)展
(1)首先我們要承認大模型確實在很多地方表現出了強悍的能力。并且,我們還可以通過提示工程或加配件等方式進一步提升性能,甚至已經有辦法往里塞多模態(tài)了。
ChatGPT顯示出來的另一個很驚艷的優(yōu)勢是它可以記住上下文并根據反饋來修改答案。關于自然語言理解、世界知識等能力也不多說了,能夠一下子超越大部分的模型。
并且,事實是大模型已經在很多場合進行應用了,ChatGPT本身也是非常成功的開放域對話機器人,而且真的很好玩。
(2)但是并不是說大模型就沒有自己的問題。我們知道ChatGPT是decoder-only的架構,并且很多時候是不聽話的,你想讓它單純回答個“是”和“否”,很多時候它還是會給你返回一大段話。因為prompt不是設定,只是使得答案盡量符合我們預期的東西罷了。
且不提幻覺、數學能力差勁等被吐槽很多的問題了。
(3)一個事實是,大模型并不總是能戰(zhàn)勝小模型,特別是在某一方面微調過的模型。這都是有論文探究過的(其實不用探究我就猜得到)。
我之前經常做一些比喻,例如ChatGPT的驚艷是因為它做到了用橡皮泥做雕刻或搬起一座山做雕刻,也就是能做一些“精細”活。然而這些活本來就是一些小模型擅長的,雖說大模型可以根據反饋調整自己的輸出,但總歸是要時間的。
(4)大模型很可能清洗一遍業(yè)界。未來的發(fā)展有可能是大模型對行業(yè)進行一波清洗,很多問題都可以換用ChatGPT這樣的大模型來解決。大模型也可以有很多,例如視覺大模型、交通大模型,他們以不同模態(tài)或行業(yè)細分,完成不同的工作。
(5)但大模型無法完全取代現有模型。就像一個礦泉水瓶,只填充石頭是填不滿的,你還可以填沙子,填完沙子還可以再填水。總會有某個領域、某個應用是不適合大模型的,小模型的研究依然不會停止。
(6)就拿ChatGPT很擅長的自然語言理解來說吧。我們驚艷與ChatGPT強大的語言理解能力,但很多小模型是可以做的更好的,這部分的研究當然要進行下去。但相對來說重要性就會降低。師兄的舉例是現在研究一些小模型就像前幾年研究SVM一樣,是可以研究的,但不是重點。
(7)最后,大模型本身也會發(fā)展。由于硬件條件的限制,大模型已經接近了規(guī)模的極限,怎么突破這個限制變得更強也是要討論的問題,包括怎么結合大模型和小模型也是未來的研究點。當然大模型也不是唯一出路,萬一過不久就真的不火了呢?都是有可能的,所以直接全部砍掉小模型當然不是理智的選擇。