關(guān)于GPT 國內(nèi)vs國外
ChatGPT這種技術(shù)的上限在哪里? 目前還沒有看見。一般來講,數(shù)據(jù)(質(zhì)量和數(shù)量)決定效果的下限,模型(容量和精巧程度)決定效果的上限。 首先,值得我們注意的是OpenAI本身并沒有掌握極其大量的數(shù)據(jù)(相比Bing和Google來說)。OpenAI的基礎(chǔ)數(shù)據(jù)都是他們自己通過各種第三方渠道爬來的。即使在推出ChatGPT的時候,他們手中的有標簽的數(shù)據(jù)的體量也并不是特別大(相較于體量更大的公司能夠動用的資源以及數(shù)據(jù)量而言)。 換句話說,今天效果這么好的ChatGPT,基于的數(shù)據(jù)似乎是作為一個第三方都可以獲得的相對不那么大量的數(shù)據(jù)。同時,從模型的容量看起來,其基于的基礎(chǔ)模型(GPT3.x以及InstructGPT)的175B的模型容量在2023年的今天看起來“似乎一般”;即使加入“成本可控”的前提,3年內(nèi)再大100倍是完全有可能的。 那換句話說,兩三年內(nèi)如果模型容量再提升100x,數(shù)據(jù)數(shù)量和質(zhì)量再提升100x,那么三年后的ChatGPT的能力邊界在哪里,有點不敢想象。 而不幸的是,這就是計算霸權(quán)和數(shù)據(jù)霸權(quán)的體現(xiàn)。全世界能夠搭建得起這個團隊,出得起這個錢,買得起并且買得到這么多A100卡,再能夠從各級領(lǐng)導協(xié)調(diào)到這些資源并且克服各種內(nèi)部斗爭的團隊,樂觀講也就50家,悲觀講可能也就10家。美中比例大概7:3。 換句話說,對于絕大多數(shù)人來說注定只能在應用層去玩耍。