對話周伯文:當(dāng)你真的明白了ChatGPT,你就不會想再做一個OpenAI


Connect the dots
2014年,Yoshua Bengio和他在蒙特利爾大學(xué)的同事們正在研究如何把編碼器-解碼器用在機(jī)器翻譯領(lǐng)域。這篇即將成為機(jī)器學(xué)習(xí)研究里程碑之一的論文,在當(dāng)時有些卡殼。論文的一作,Yoshua Bengio的博士后KyungHyun Cho發(fā)現(xiàn),他的模型在長句翻譯上依然有很多問題。這些問題不解決,模型總顯得不夠強(qiáng)大。
當(dāng)時的蒙特利爾大學(xué)正在和IBM公司談合作,后者負(fù)責(zé)對接的科學(xué)家從紐約來到蒙特利爾時,Yoshua和KyungHyun向他展示了這個進(jìn)展中的研究,而后者很快指出了這個模型的一個缺失:
它缺少一個對齊(alignment)的機(jī)制,也就是判斷目標(biāo)輸出語言里的哪些詞與輸入語言是對齊的。
在后來發(fā)表的論文中,這種對齊的思想加入了進(jìn)去,長句翻譯的效果得到提升,而這篇論文以及由后來聯(lián)合創(chuàng)辦OpenAI的Ilya Sutskever發(fā)表的另一篇論文一起奠定了Seq2Seq模型的基本思想,其中使用的對齊思路里,也出現(xiàn)了后來影響人工智能走向的注意力機(jī)制的影子,它們被認(rèn)為是后來各類模型走向底層統(tǒng)一的源頭之一。
這名給Bengio提出建議的科學(xué)家是周伯文。
當(dāng)時周伯文已經(jīng)在IBM工作10多年,在IBM著名的T. J. Watson研究中心領(lǐng)導(dǎo)自然語言理解與語音翻譯團(tuán)隊。在2012年Geoffrey Hinton證明了神經(jīng)網(wǎng)絡(luò)的可行性后,周伯文帶領(lǐng)他的團(tuán)隊成為最早一批撲到神經(jīng)網(wǎng)絡(luò)與自然語言表征相關(guān)研究的科學(xué)家。
當(dāng)時周伯文已經(jīng)在IBM工作10多年,在IBM著名的T. J. Watson研究中心領(lǐng)導(dǎo)自然語言理解與語音翻譯團(tuán)隊。在2012年Geoffrey Hinton證明了神經(jīng)網(wǎng)絡(luò)的可行性后,周伯文帶領(lǐng)他的團(tuán)隊成為最早一批撲到神經(jīng)網(wǎng)絡(luò)與自然語言表征相關(guān)研究的科學(xué)家。
“凡是我不能創(chuàng)造的,我都沒有真正理解”。周伯文在當(dāng)年的一場學(xué)術(shù)會議上引用了著名科學(xué)家費曼的話,他認(rèn)為,人工智能也必須會創(chuàng)造。
很快,周伯文團(tuán)隊發(fā)表的生成式摘要論文引起了不少注意,但他依然覺得它和人類的行為特別是泛化方面還是差了一些。他認(rèn)為當(dāng)時的注意力機(jī)制存在缺陷——它們都是根據(jù)輸出來判斷輸入中需要更加注意(pay more attention)的地方。
周伯文給團(tuán)隊做了個比喻,就好像大學(xué)里的期末考試,如果學(xué)生通過老師在考前畫重點來針對性準(zhǔn)備復(fù)習(xí),考試的效果當(dāng)然會好,但學(xué)生通??纪昃屯恕KJ(rèn)為,如果要做通用人工智能,要考慮的就應(yīng)該是長期效果和對AI模型更充分的訓(xùn)練,所以不應(yīng)該看輸出,而只能看輸入,就像人不能用未來的信息決定現(xiàn)在的判斷。這就要設(shè)計一個更好的編碼器,和更好的自然語言表征機(jī)制。
最終他和團(tuán)隊提出了多跳自注意力(multi-hop self-attention)機(jī)制來改善編碼器——若繼續(xù)拿考試做比喻,就是完全不考慮會考什么,只看書,來理解哪里需要更多地賦予注意力,也就是學(xué)習(xí)自注意力,并且不能限制在單獨某一科目或任務(wù)的學(xué)習(xí)上,所以要反復(fù)的看,通過多跳來理解內(nèi)在的依賴關(guān)系。2016年底這篇論文完成,2017年初發(fā)表,成為第一個完全不考慮下游任務(wù)的自然語言表征模式。
在那兩年,有關(guān)神經(jīng)網(wǎng)絡(luò)的一切都在蓬勃的發(fā)展著。同年年底,后來被稱為一切繁榮的開端的那篇論文出現(xiàn)了,來自谷歌的幾個研究員寫下《Attention is All you need》的題目,給世界帶來了Transformer模型。
在這篇論文中,周伯文的論文被引用,在引用角標(biāo)對應(yīng)的地方,多跳自注意力的名字演變成了“多頭自注意力”。
“這是一個很好的研究,他們在多頭自注意力基礎(chǔ)上拓展了兩件事。第一就是利用強(qiáng)大的算力,對注意力機(jī)制疊了很多層。第二很聰明也很簡單,就是把RNN拋棄了,只用位置編碼,輕裝上陣因此可以用更多的數(shù)據(jù)。最終證明效果很好?!敝懿膶ξ一貞浀?。RNN/LSTM之前一直和Seq2Seq模型一起出現(xiàn),它可以捕捉上下文的關(guān)系,但因為需要基于序列順序來做,所以計算資源消耗巨大。尤其會出現(xiàn)梯度爆炸的問題。
Attention is all you need,這個后來很大程度改變了學(xué)術(shù)論文起標(biāo)題風(fēng)格的短句,今天的關(guān)注點都在“Attention”上,但在當(dāng)時的研究背景里,它更像是在有針對性的喊話:
多頭重要,自注意力重要,但RNN不再重要,這打破了當(dāng)時所有人搭建模型時的慣例,也是和周伯文等之前研究者的論文最大的區(qū)別。
這篇論文和Transformer架構(gòu)徹底改變了一切,它解決了模型長距離記憶的問題。Ilya Sutskever在近期一次采訪中回憶,OpenAI在論文出現(xiàn)第二天就立刻徹底轉(zhuǎn)向了Transformer架構(gòu)。
而后,2020年5月OpenAI基于Transformer架構(gòu)的GPT-3論文發(fā)表,2年后ChatGPT出現(xiàn)。之后的一切都是歷史。
“從注意力到自注意力,從BERT到GPT-3,核心的思想都是當(dāng)不再依賴輸出或待預(yù)測詞的下文等未來的信息時、當(dāng)可以用更多的數(shù)據(jù)來更充分訓(xùn)練AI模型時,我們看到了AGI的影子“。
弄潮的人會更早意識到新浪潮到來,在看到GPT3后,當(dāng)時已經(jīng)在京東擔(dān)任高級副總裁的周伯文給自己的職業(yè)生涯做了一個重要的決定:
創(chuàng)業(yè)。
2021年下半年,他向工作了4年的京東提出離職。他曾在這里一手搭建起京東的整個AI團(tuán)隊,領(lǐng)導(dǎo)了云與AI的整合和戰(zhàn)略刷新,把生成式人工智能用到千人千面的個性化商品營銷和爆款產(chǎn)品創(chuàng)新中,并收獲了亮眼的提升數(shù)據(jù)。2020-2021年生成式人工智能還是早期探索,很少有人愿意為此而重新出發(fā),但他看到的未來讓他無法等待。
人生就是“connect the dots”。周伯文喜歡喬布斯這個提法,而對他來說,把這些點連接起來的一刻到了。
銜遠(yuǎn)科技的誕生
一個無限的符號。左邊是產(chǎn)品,右邊是消費者。
周伯文在2021年底的一天在一張A4紙上畫下了這個圖案,之后銜遠(yuǎn)科技誕生。
Dots connected。
這種基于生成式的交互智能就是ChatGPT成功背后的重要機(jī)制,但在ChatGPT還沒出現(xiàn)的當(dāng)時很少有人懂。
離開大船,帶來的是巨大的沉沒風(fēng)險,但他自己想的很清楚。
“終局思考加上對技術(shù)階段和成熟期的判斷,讓我在2021年決定干這件事情?!痹阢曔h(yuǎn)科技位于中關(guān)村的辦公室,周伯文對我說。他的聲音有些沙啞,今年以來他每一天的行程以小時劃分,但精力依然充沛,提到技術(shù)的演進(jìn)節(jié)點,不自覺會興奮地提高音量。

“展開來說,首先是技術(shù)驗證,一方面是GPT3這些模型明顯看出生成式的能力越來越強(qiáng)。另一方面是我自己早期的一系列技術(shù)和效果驗證。用生成式AI來做的內(nèi)容和產(chǎn)品創(chuàng)新等比人類專家的轉(zhuǎn)化率提高30%?!?/p>
兩相結(jié)合,周伯文創(chuàng)辦銜遠(yuǎn)科技要做的,就是用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系。
“過去的模式雖然已有很多新AI技術(shù)的實踐,但數(shù)智化產(chǎn)業(yè)在追求單點,成千上萬個小的模型,解決一個個具體環(huán)節(jié)。我希望做一個基礎(chǔ)大模型,學(xué)習(xí)商品供應(yīng)鏈各個環(huán)節(jié),并以消費者為中心提升關(guān)鍵環(huán)節(jié)效率?!?/p>
但果不其然的,這個模式在一開始并沒太多人理解。周伯文又再次需要做一個判斷:這些技術(shù)思考和現(xiàn)實的商業(yè)模式之間的空隙,他是否又一次太超前了。
“超前是我的常態(tài),但我當(dāng)時判斷是,沒有太超前。”他對我說。“我總是說,技術(shù)的突破,核心是你的愿景是什么。”
周伯文的技術(shù)愿景顯然指向通用人工智能,而這一次生成式人工智能的進(jìn)展,讓他更清晰看到通用人工智能的可能性,其中最關(guān)鍵的改變,就是人與人工智能的交互關(guān)系的變化。
“過往大家都把人機(jī)對話認(rèn)為是一種應(yīng)用。我為什么要去做交互呢?我不認(rèn)為它是個應(yīng)用,從人類歷史早期開始,從孔子與72門徒到雅典學(xué)派,人類知識的積累、沉淀、傳播,其實都是通過人和人的對話、交互實現(xiàn)的。AI時代類似,我認(rèn)為人機(jī)對話是一個學(xué)習(xí)與對齊的手段,通過交互,人可以不斷地教AI,完成人和AI在復(fù)雜任務(wù)上的分工協(xié)同,并同時確保AI的目標(biāo)和子目標(biāo)都與人類對齊?!敝懿恼f。
在ChatGPT出現(xiàn)后,這種判斷成了一種共識。但在2022年初當(dāng)他去清華大學(xué)提出想要做這個課題時,大家也感到新奇。周伯文離開京東后,受聘為清華大學(xué)電子工程系長聘教授、清華大學(xué)惠妍講席教授,并設(shè)立“協(xié)同交互智能研究中心” 。他同時擁有學(xué)界和創(chuàng)業(yè)者的雙重身份,希望通過這兩種身份圍繞學(xué)術(shù)與產(chǎn)業(yè)的協(xié)同更好的助推AI創(chuàng)新發(fā)展。
什么才是中國的OpenAI
在中關(guān)村不大的會議室里,周伯文給我展示他2021年底最早設(shè)計銜遠(yuǎn)科技的技術(shù)底座與商業(yè)模式時的幻燈片,網(wǎng)絡(luò)投屏延遲有些高,“我們的網(wǎng)絡(luò)資源都在訓(xùn)練模型,”他半開玩笑地說。
這家公司正在按照他的愿景,穩(wěn)步推進(jìn)每一個技術(shù)細(xì)節(jié),打造著模型和產(chǎn)品。
用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系,周伯文最終將它們指向5D:發(fā)現(xiàn),定義,設(shè)計,開發(fā),轉(zhuǎn)化(Discover,Define,Design,Develop,Distribute)。周伯文在和客戶的溝通中發(fā)現(xiàn),這5D基本涵蓋了品牌和制造商的所有需求。
這5D的任何地方不能只考慮用戶或者產(chǎn)品,而是需要把它們鏈接起來看,也就是需要彼此交互。這也是與以往的不同——5D并不新鮮,它們早已存在,過往周伯文也用技術(shù)走通過每一個D,但問題是在大模型之前,模型訓(xùn)練和部署成本都很高。更重要的是,它們是彼此分割的,哪怕是曾經(jīng)火熱一時,試圖解決這一問題的數(shù)據(jù)中臺概念也沒能改變這個事實。
“當(dāng)我做了數(shù)據(jù)中臺后,發(fā)現(xiàn)這是一個偽命題,因為它是一個ad hoc(臨時安排)的東西,是事后定義的。所有人用不同軟件看到的數(shù)據(jù)還是不同,因為最終的入口不同。但銜遠(yuǎn)科技的大模型做成后,所有企業(yè)將使用5D大模型來實現(xiàn)數(shù)智化轉(zhuǎn)型,將其成為統(tǒng)一的入口?!彼f。
“生成式人工智能讓5D第一次有可能用同一個AI基礎(chǔ)模型跑起來。而且能夠?qū)?D的數(shù)據(jù)集中到一起并實現(xiàn)全部穿透,這類場景以前是不存在的?!?/p>
“在應(yīng)用落地層面, 我們研發(fā)的領(lǐng)銜Collaborative Innovation Platform SaaS基于大模型的多模態(tài)理解、推理與生成能力,通過深刻洞察消費者、場景、商品、品參、研發(fā),協(xié)助企業(yè)發(fā)現(xiàn)商業(yè)機(jī)會與產(chǎn)品創(chuàng)新。同時,銜遠(yuǎn)科技的ProductGPT多輪對話平臺為企業(yè)每個員工提供根據(jù)不同職業(yè)角色深度定制的個人助手,通過提供角色特定的技能與知識滿足其特定的工作需求。 例如,銜遠(yuǎn)科技的消費者研究個人助手會提供研究市場趨勢、理解消費者需求、市場調(diào)研等專業(yè)技能與相關(guān)知識?!?/p>
銜遠(yuǎn)科技在今年3月1日已完成數(shù)億元天使輪融資,由啟明創(chuàng)投領(lǐng)投,經(jīng)緯創(chuàng)投跟投。不過,在今天已經(jīng)被一定程度上塑造的中國大模型商業(yè)語境里,這樣的模型思路似乎會被立刻歸類為“垂直模型”,人們認(rèn)為它需要被建立在一個更強(qiáng)大的,全能的通用大模型之上,而后者才是“百模大戰(zhàn)”的焦點。
但周伯文并不這么認(rèn)為。
“我以前沒用大模型這個詞,現(xiàn)在大家這樣理解,沒辦法(也要用起來),這樣有好處,就是簡潔。但它也會把很多東西混淆在一起?!?/p>
第一是技術(shù)上,他認(rèn)為,一方面只強(qiáng)調(diào)大就會讓人們把GPT這種dense model和其他一些MOE(拼接模型,可以大很多)放一起比較,這樣并沒有意義。另一方面,目前模型的確需要足夠大才能涌現(xiàn)一些能力,但未來一定會有新的辦法,比如,未來訓(xùn)練一定要提供比現(xiàn)在還多的高質(zhì)量、高智慧密度的數(shù)據(jù),但模型的表征架構(gòu)不一定必須要數(shù)量級的增長,如果一定要的話可能是我們的表征學(xué)習(xí)還不夠好;推理就更明顯,一定是越小越好。
“我一直認(rèn)為,模型不是越大越好。我們說大模型其實關(guān)鍵是模型提供了預(yù)訓(xùn)練能力,具備了基礎(chǔ)能力,后面怎么去用是另一個問題?!?/p>
第二在商業(yè)模式上,“大”其實對應(yīng)的是ROI里I的部分,但事實上沒人要去比I,要比的是R,I是分母越小越好,R是分子越大越好。
以及大模型本身更適合做的是長尾場景,這些往往也是低價值場景。而一些數(shù)據(jù)上的變化也開始印證這個判斷。
“從上個月起,ChatGPT的API 調(diào)用量明顯下降,日活下降5%,而它之前突增之后也才到谷歌日活的2%。”他說?!叭藗儾恢烙盟墒裁矗划?dāng)做是一個玩具或一個簡易工具。我的判斷是必須進(jìn)入生產(chǎn)力環(huán)節(jié),成為人們在生產(chǎn)生活中的剛需?!?/p>
所以在銜遠(yuǎn)科技,大模型在技術(shù)底層框架上必須具備通用大模型技術(shù)的基礎(chǔ)能力,并用科學(xué)的方法評估,但同時也需要專業(yè)的訓(xùn)練。
“人們都在用LLM來簡述OpenAI做的事情,但實際OpenAI自己的定義是——基于多頭注意力機(jī)制預(yù)測下一個詞訓(xùn)練出來的最佳的世界知識壓縮器。”周伯文找到OpenAI科學(xué)家的分享對我說。
也就是,一件產(chǎn)品誕生全過程的知識第一次可以用最佳方式壓縮進(jìn)一個模型。把人和消費者所有交互的數(shù)據(jù)壓縮之后來預(yù)測下一個“詞”,并可以學(xué)會人的場景,情感,來預(yù)測產(chǎn)品的參數(shù)。
周伯文喜歡引用諾貝爾經(jīng)濟(jì)學(xué)獎得主丹尼爾·卡尼曼提出的一個理論來解釋人工智能與人的關(guān)系:人們的思考方式有兩類,“系統(tǒng)1”基于直覺和經(jīng)驗判斷,快速、不需要大量計算,“系統(tǒng)2”需要語言、算法、計算、邏輯。最初人們以為商業(yè)化的AI更適合做“系統(tǒng)1”的工作,比如人臉識別等。ChatGPT則證明了AI做非給定任務(wù)系統(tǒng)2的可行性。
而具體到銜遠(yuǎn)科技,可以拿亞馬遜的貝索斯來比喻,他有天生的思維,有亞馬遜強(qiáng)大的團(tuán)隊和數(shù)據(jù)分析能力,也就是強(qiáng)大的系統(tǒng)2,但不是所有商家都有這么強(qiáng)大的能力。但今天一個吃透了互動數(shù)據(jù)的模型可以讓這些能力平民化。
銜遠(yuǎn)科技就是要幫助更多的企業(yè)家成為貝索斯。
據(jù)品玩了解,銜遠(yuǎn)科技正在訓(xùn)練的基礎(chǔ)模型會在具備通用能力的基礎(chǔ)上,更擅長理解人與商品,通過多輪對話方式為企業(yè)與消費者以生成式人工智能幫助從商品洞察、定位、設(shè)計、研發(fā)到營銷的創(chuàng)新。
周伯文設(shè)計的訓(xùn)練方法,是用約三分之二的通用人工智能的問題,比如數(shù)學(xué)推理等,再加上三分之一完全圍繞著5D的知識來一起訓(xùn)練。
周伯文認(rèn)為,這是一個用全新技術(shù)驅(qū)動的全新挑戰(zhàn),而并不是簡單地去追隨做“下一個OpenAI”。
“因為在OpenAI成功的一瞬間,就意味著任何在該領(lǐng)域跟隨的其他公司都不再有是OpenAI的可能。”他說。
“OpenAI是什么,是在沒有前人成功的例子上,靠自己對終局的判斷,一步步往前走,認(rèn)為未來應(yīng)該是這樣,而不是那樣。如果今天只是做跟隨,那就不是中國的OpenAI。”