一文幫你看懂ChatGPT


ChatGPT近半年來穩(wěn)坐科技圈熱度的頭把交椅,它這么火,讓人忍不住想一探究竟。
ChatGPT是做什么的?
四個字:續(xù)寫文本。
ChatGPT的本質(zhì)是什么?
兩個字:概率。
簡單地說,它會根據(jù)現(xiàn)有的文本,來預(yù)測下一個詞是什么。
完整的文章就是這樣一個詞一個詞寫出來的。
如果稍微準(zhǔn)確一點,這個“詞”其實叫做“標(biāo)記”(token)。
因為它不一定是一個完整的詞,它可以只是一部分,這正是它創(chuàng)造性的體現(xiàn)。
實際上,ChatGPT并不是只生成一個詞,而是生成一組詞。
每個詞都有對應(yīng)的概率,并且會按概率的大小依次排列。
比如這句話:在下雨天,你在家里最喜歡(? )?
它會生成很多詞,按概率高低排序:睡覺、打游戲、看電視、看書等等。
如果你覺得ChatGPT永遠(yuǎn)會選概率最大的詞,那就太小看它了。
的確,概率越大,可能越符合場景。但這也意味著它越平庸。
也就是說,如果一直選概率大的詞,那最后的文章就很平淡,給人一種官話連篇的感覺。
ChatGPT有一個叫做“溫度”的參數(shù),范圍是0到1,專門用來調(diào)節(jié)這個選擇。
越接近于0,就越會選擇概率大的詞,創(chuàng)造性很低;越接近于1,選擇概率小的詞的頻率就越大,創(chuàng)造性也就越強(qiáng)。
那每個詞的概率是怎么得出來的呢?
這就得益于它背后的一個叫做大語言模型(Large Language Model, LLM)的技術(shù)。
一提起模型,很多同學(xué)就會發(fā)怵,覺得那是很高大上的東西。
其實,模型的本質(zhì)就是一個函數(shù)。你就把它理解成y=f(x)這樣的函數(shù)就可以了。
這個LLM,其實就是一種叫做“神經(jīng)網(wǎng)絡(luò)”的東西在進(jìn)行運算。
你也不用管神經(jīng)網(wǎng)絡(luò)是什么,你就把它當(dāng)成一個黑盒就好了。
這個黑盒就是你熟悉的函數(shù),你給它輸入一些東西,它就會輸出一些東西。
具體的原理你也不用知道,因為也沒人能解釋得清楚。
這個神經(jīng)網(wǎng)絡(luò)呢,是需要訓(xùn)練的。因此,你需要喂給它大量的文本,才能幫助它更好地理解文本內(nèi)的關(guān)系,幫你生成可靠的內(nèi)容。
它有一些參數(shù)(或者稱之為權(quán)重),訓(xùn)練的目的,就是通過調(diào)節(jié)這些參數(shù),讓結(jié)果更符合現(xiàn)實。
ChatGPT有多少個參數(shù)呢?近2000億個。
正是靠如此多的參數(shù),才展現(xiàn)了它的神奇。
這種神經(jīng)網(wǎng)絡(luò)有個特點,越是復(fù)雜的東西,它處理得越好;反而是簡單的問題,它卻有點不靈了。
而且,你根本不用操心太多。只需要在開頭和結(jié)尾處理一下,里面的過程它會自動學(xué)習(xí)好。不管有多復(fù)雜,只要你給它的樣本足夠多。
這個世界復(fù)雜的事情太多,或許我們可以從這里得到啟發(fā):復(fù)雜的事不妨用復(fù)雜的方法去解決,或許能找到不一樣的出路。
有句話是:我們往往會在短期內(nèi)高估某個技術(shù),而在長期內(nèi)低估某個技術(shù)。
ChatGPT也是如此,短期內(nèi)的爆火會吸引大批的人加入。但只有理解了它的本質(zhì),才能發(fā)現(xiàn)它的潛力。
ChatGPT很強(qiáng)大,有空就要多用它!
推薦閱讀:《這就是ChatGPT》
作者:[美] 斯蒂芬·沃爾弗拉姆(Stephen Wolfram)