【花師小哲】雜談——大模型和小模型雜談

2023-03-22 09:47 作者:花師小哲-中二 0人讀過 | 我要投稿

淺談一下大模型與小模型，也是師兄昨晚在群里發(fā)表了一些看法，于是我也來寫一點。個人看法。

直接上結論：大模型要發(fā)展，小模型也要發(fā)展

（1）首先我們要承認大模型確實在很多地方表現出了強悍的能力。并且，我們還可以通過提示工程或加配件等方式進一步提升性能，甚至已經有辦法往里塞多模態(tài)了。

ChatGPT顯示出來的另一個很驚艷的優(yōu)勢是它可以記住上下文并根據反饋來修改答案。關于自然語言理解、世界知識等能力也不多說了，能夠一下子超越大部分的模型。

并且，事實是大模型已經在很多場合進行應用了，ChatGPT本身也是非常成功的開放域對話機器人，而且真的很好玩。

（2）但是并不是說大模型就沒有自己的問題。我們知道ChatGPT是decoder-only的架構，并且很多時候是不聽話的，你想讓它單純回答個“是”和“否”，很多時候它還是會給你返回一大段話。因為prompt不是設定，只是使得答案盡量符合我們預期的東西罷了。

且不提幻覺、數學能力差勁等被吐槽很多的問題了。

（3）一個事實是，大模型并不總是能戰(zhàn)勝小模型，特別是在某一方面微調過的模型。這都是有論文探究過的（其實不用探究我就猜得到）。

我之前經常做一些比喻，例如ChatGPT的驚艷是因為它做到了用橡皮泥做雕刻或搬起一座山做雕刻，也就是能做一些“精細”活。然而這些活本來就是一些小模型擅長的，雖說大模型可以根據反饋調整自己的輸出，但總歸是要時間的。

（4）大模型很可能清洗一遍業(yè)界。未來的發(fā)展有可能是大模型對行業(yè)進行一波清洗，很多問題都可以換用ChatGPT這樣的大模型來解決。大模型也可以有很多，例如視覺大模型、交通大模型，他們以不同模態(tài)或行業(yè)細分，完成不同的工作。

（5）但大模型無法完全取代現有模型。就像一個礦泉水瓶，只填充石頭是填不滿的，你還可以填沙子，填完沙子還可以再填水。總會有某個領域、某個應用是不適合大模型的，小模型的研究依然不會停止。

（6）就拿ChatGPT很擅長的自然語言理解來說吧。我們驚艷與ChatGPT強大的語言理解能力，但很多小模型是可以做的更好的，這部分的研究當然要進行下去。但相對來說重要性就會降低。師兄的舉例是現在研究一些小模型就像前幾年研究SVM一樣，是可以研究的，但不是重點。

（7）最后，大模型本身也會發(fā)展。由于硬件條件的限制，大模型已經接近了規(guī)模的極限，怎么突破這個限制變得更強也是要討論的問題，包括怎么結合大模型和小模型也是未來的研究點。當然大模型也不是唯一出路，萬一過不久就真的不火了呢？都是有可能的，所以直接全部砍掉小模型當然不是理智的選擇。

【花師小哲】雜談——大模型和小模型雜談的評論 (共條)