【花師小哲】當代煉金術(神經網絡)前沿(27)——ChatGPT很強,下一秒就是我的了
該來的總會來的。

這篇文章要做的事情很簡單,實現對大語言模型的能力竊取,所瞄準的主要對象就是ChatGPT。這篇文章也比較短,就少寫一些。

1.CloseAI
天下苦OpenAI久也。由于GPT-3開始OpenAI一直不開源,導致我們使用很多GPT大模型的時候只能調用API,雖然這也能解決很多問題,但總歸沒有模型在自己手上舒服,想做做微調有時候也是做不到的。
然而自己從頭訓練大模型又是非常燒錢的一件事情,不是每個人每個實驗室都負擔得起的。到頭來還是只能乖乖交錢用API。
于是,怎么節(jié)省成本就成為大模型研究的另一條出路了。

2.模型竊取
模型竊取也不是什么新鮮事情了,模型竊取也是經典模型攻擊的方法之一。
所謂模型竊取,也很簡單,你訓練了一個模型,我想辦法借助你的模型復制出一個“贗品”。雖然這個“贗品”的能力可能稍差一些,但總歸之后就是我的了,再使用就不用付錢了。

沒錯,這次就是對ChatGPT下黑手了。
其實了解過模型蒸餾等方法的朋友應該知道,這樣做也不是什么新鮮事情。大模型有自己的缺點,即使是正向推理也是要消耗很多資源的,而小模型運行非??爝€環(huán)保,所以SimCLR V2就提出“預訓練-微調-蒸餾”三步驟。

3.本篇論文的做法
做法其實也異常簡單:

就三步:(1)查詢;(2)響應檢查;(3)模擬訓練。
需要注意的幾點:
(1)因為ChatGPT只開放API,所以整體是黑盒竊取,你只能得到輸入和輸出
(2)一般情況下最好是用和被攻擊模型同等規(guī)模的模型進行竊取,但由于大模型不可行,所以只能用中等規(guī)模模型進行竊取
(3)眾所周知,只有當模型規(guī)模大到一定程度時,某些能力才會出現(所謂的“涌現”),所以中等模型當然不能拷貝ChatGPT的全部能力,仍然只能針對某一具體領域進行能力竊取

4.結語
本篇論文的竊取仍然是非常初期的一個研究,畢竟本身難度就很大,但也說明了對大模型的能力竊取并非不可能。