ChatGPT,令人沮喪的開源故事
當(dāng)OpenAI在2022年11月底發(fā)布ChatGPT 3.5時,沒有人對這個新版本抱有過高的期望。這只是一個“研究預(yù)覽” ,OpenAI的AI政策研究員Sandhini Agarwal解釋道。 該組織的科學(xué)家Liam Fedus補充道:“我們不想將它過度宣傳為一個重大的基本進步?!?/p>
然而,現(xiàn)在情況完全不同了。除非你一直生活在石頭下面,你應(yīng)該知道ChatGPT從那時起成為了這個十年,甚至是這個世紀(jì)最火熱的技術(shù)發(fā)展。至少比爾·蓋茨(你還記得他嗎?)認為這是自1980年引入圖形用戶界面(GUI)以來的最大事情。這導(dǎo)致了一個名為Windows的產(chǎn)品。
有意思的是,ChatGPT 3.5并沒有什么新鮮東西。 它使用了與早期版本相同的大型語言模型(LLM)。 關(guān)鍵的區(qū)別是現(xiàn)在你可以更容易地用自然語言提出問題,而不需要使用應(yīng)用程序編程接口(API)或API驅(qū)動程序。
通過使ChatGPT易于訪問,OpenAI驚訝地發(fā)現(xiàn)它變得非常受歡迎。 而且,順便說一句,自從微軟投資了100億美元到這家公司以來,它似乎已經(jīng)為公司做得不錯。
那么,對于開源來說還是好消息,對吧?我的意思是,公司的名字是OpenAI,對吧? 是的,名稱仍然帶有“開源”的含義,但其源代碼和基于其的服務(wù)已經(jīng)有一段時間沒有開源了。
雖然Google新近發(fā)布的答案ChatGPT,Bard,“認為”“GPT-4模型和ChatGPT都是開源項目”,但是這是錯誤的。
其中一位公司的聯(lián)合創(chuàng)始人,你可能也聽說過他的另一個家伙埃隆·馬斯克說過,這原本是要開源的。馬斯克注意到:“OpenAI是作為一個開源(這就是為什么我把它命名為“開放” AI)非盈利性公司而成立的,旨在作為對抗谷歌的權(quán)衡,但現(xiàn)在它已經(jīng)成為一個閉源的、效益最大的公司,實際上被微軟控制。這根本不是我想要的?!?/p>
事情是這樣的,馬斯克在2018年離開了OpenAI,當(dāng)時這家公司還是一個非營利組織,專注于SpaceX和特斯拉。 明年,看到它需要更多的資金,OpenAI成為了實質(zhì)上的營利性公司。正如OpenAI的CEO Sam Altman隨后在推特上發(fā)表的推文中指出:“我們將不得不在某個時候以某種方式對其進行貨幣化; 計算成本令人瞠目結(jié)舌?!?我猜100億美元只能支撐它到這個程度了。
換句話說,又一家公司未能找到如何利用其開源工作獲利的方法。然后,使用開源構(gòu)建到GPT-2,它關(guān)閉了代碼門。
此外,即使在微軟大力投資OpenAI之前,微軟也在2020年獨家授權(quán)了GPT-3語言模型。
請注意,ChatGPT仍然使用開源代碼。就在本周,當(dāng)人們可以查看其他人的搜索歷史時,Altman將錯誤歸咎于開源庫。 “由于一個開源庫中的錯誤,我們在ChatGPT中遇到了重大問題,現(xiàn)在已經(jīng)發(fā)布了修復(fù)程序,并且我們剛剛完成了驗證?!?/p>
這個錯誤起源于Redis客戶端開源庫redis-py*。
現(xiàn)在ChatGPT獲得了金錢支持,則不再能夠名副其實地使用OpenAI這個名稱。 正如Nomic AI的信息設(shè)計副總裁Ben Schmidt在推特上寫道:“我認為我們可以在“Open” AI上打上一個關(guān)門的標(biāo)簽:介紹GPT-4的98頁論文自豪地宣布,他們沒有在任何關(guān)于訓(xùn)練集內(nèi)容的問題上透露任何細節(jié)?!?/p>
在這之前,你可以追溯ChatGPT的旅程到AI,機器學(xué)習(xí),自然語言處理和深度學(xué)習(xí)框架的核心的開源程序。
特別是,Google和Facebook分別開發(fā)的TensorFlow和PyTorch推動了ChatGPT。 這些框架為構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型提供了必要的工具和庫。 沒有它們,就沒有ChatGPT。
ChatGPT的另一個重要的開源部分是一個奇怪命名的Hugging Face的Transformer。 這是構(gòu)建最先進的機器學(xué)習(xí)模型的領(lǐng)先開源庫。 它為自然語言處理任務(wù)提供了預(yù)訓(xùn)練模型、架構(gòu)和工具,使開發(fā)者能夠在現(xiàn)有模型的基礎(chǔ)上構(gòu)建并調(diào)整它們以適用于特定的用例。 ChatGPT受益于該庫支持GPT系列模型的能力,使其快速部署和擴展。
你可以在OpenAI的GPT-2中看到所有這些。而GPT-2卻沒有得到大眾矚目,它令人印象深刻的能力是深度學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和Transformer架構(gòu)的進步的結(jié)果。 開源社區(qū)在GPT-2的開發(fā)、測試和改進中發(fā)揮了重要作用。
那么OpenAI如何做到這一點呢?容易。以上的開源軟件許可證,TensorFlow,Apache 2.0;PyTorch,修改的BSD;Hugging Face Transformer支持各種開源許可證,包括BSD。 換句話說,OpenAI在法律上是合法的。
因此,就像許多其他程序一樣,ChatGPT欠了開源社區(qū)很大的債,但它不是開源的,也不可能會成為開源的。 這就是另一個令人沮喪的開源故事。