散文網(wǎng) » 科技 »學(xué)習(xí) » 對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI

2023-06-16 15:01 作者:銜遠(yuǎn)科技 0人讀過 | 我要投稿

Connect the dots

2014年，Yoshua Bengio和他在蒙特利爾大學(xué)的同事們正在研究如何把編碼器-解碼器用在機(jī)器翻譯領(lǐng)域。這篇即將成為機(jī)器學(xué)習(xí)研究里程碑之一的論文，在當(dāng)時有些卡殼。論文的一作，Yoshua Bengio的博士后KyungHyun Cho發(fā)現(xiàn)，他的模型在長句翻譯上依然有很多問題。這些問題不解決，模型總顯得不夠強(qiáng)大。

當(dāng)時的蒙特利爾大學(xué)正在和IBM公司談合作，后者負(fù)責(zé)對接的科學(xué)家從紐約來到蒙特利爾時，Yoshua和KyungHyun向他展示了這個進(jìn)展中的研究，而后者很快指出了這個模型的一個缺失：

它缺少一個對齊（alignment）的機(jī)制，也就是判斷目標(biāo)輸出語言里的哪些詞與輸入語言是對齊的。

在后來發(fā)表的論文中，這種對齊的思想加入了進(jìn)去，長句翻譯的效果得到提升，而這篇論文以及由后來聯(lián)合創(chuàng)辦OpenAI的Ilya Sutskever發(fā)表的另一篇論文一起奠定了Seq2Seq模型的基本思想，其中使用的對齊思路里，也出現(xiàn)了后來影響人工智能走向的注意力機(jī)制的影子，它們被認(rèn)為是后來各類模型走向底層統(tǒng)一的源頭之一。

這名給Bengio提出建議的科學(xué)家是周伯文。

當(dāng)時周伯文已經(jīng)在IBM工作10多年，在IBM著名的T. J. Watson研究中心領(lǐng)導(dǎo)自然語言理解與語音翻譯團(tuán)隊。在2012年Geoffrey Hinton證明了神經(jīng)網(wǎng)絡(luò)的可行性后，周伯文帶領(lǐng)他的團(tuán)隊成為最早一批撲到神經(jīng)網(wǎng)絡(luò)與自然語言表征相關(guān)研究的科學(xué)家。

“凡是我不能創(chuàng)造的，我都沒有真正理解”。周伯文在當(dāng)年的一場學(xué)術(shù)會議上引用了著名科學(xué)家費曼的話，他認(rèn)為，人工智能也必須會創(chuàng)造。

很快，周伯文團(tuán)隊發(fā)表的生成式摘要論文引起了不少注意，但他依然覺得它和人類的行為特別是泛化方面還是差了一些。他認(rèn)為當(dāng)時的注意力機(jī)制存在缺陷——它們都是根據(jù)輸出來判斷輸入中需要更加注意（pay more attention）的地方。

周伯文給團(tuán)隊做了個比喻，就好像大學(xué)里的期末考試，如果學(xué)生通過老師在考前畫重點來針對性準(zhǔn)備復(fù)習(xí)，考試的效果當(dāng)然會好，但學(xué)生通?？纪昃屯恕ＫJ(rèn)為，如果要做通用人工智能，要考慮的就應(yīng)該是長期效果和對AI模型更充分的訓(xùn)練，所以不應(yīng)該看輸出，而只能看輸入，就像人不能用未來的信息決定現(xiàn)在的判斷。這就要設(shè)計一個更好的編碼器，和更好的自然語言表征機(jī)制。

最終他和團(tuán)隊提出了多跳自注意力（multi-hop self-attention）機(jī)制來改善編碼器——若繼續(xù)拿考試做比喻，就是完全不考慮會考什么，只看書，來理解哪里需要更多地賦予注意力，也就是學(xué)習(xí)自注意力，并且不能限制在單獨某一科目或任務(wù)的學(xué)習(xí)上，所以要反復(fù)的看，通過多跳來理解內(nèi)在的依賴關(guān)系。2016年底這篇論文完成，2017年初發(fā)表，成為第一個完全不考慮下游任務(wù)的自然語言表征模式。

在那兩年，有關(guān)神經(jīng)網(wǎng)絡(luò)的一切都在蓬勃的發(fā)展著。同年年底，后來被稱為一切繁榮的開端的那篇論文出現(xiàn)了，來自谷歌的幾個研究員寫下《Attention is All you need》的題目，給世界帶來了Transformer模型。

在這篇論文中，周伯文的論文被引用，在引用角標(biāo)對應(yīng)的地方，多跳自注意力的名字演變成了“多頭自注意力”。

“這是一個很好的研究，他們在多頭自注意力基礎(chǔ)上拓展了兩件事。第一就是利用強(qiáng)大的算力，對注意力機(jī)制疊了很多層。第二很聰明也很簡單，就是把RNN拋棄了，只用位置編碼，輕裝上陣因此可以用更多的數(shù)據(jù)。最終證明效果很好?！敝懿膶ξ一貞浀?。RNN/LSTM之前一直和Seq2Seq模型一起出現(xiàn)，它可以捕捉上下文的關(guān)系，但因為需要基于序列順序來做，所以計算資源消耗巨大。尤其會出現(xiàn)梯度爆炸的問題。

Attention is all you need，這個后來很大程度改變了學(xué)術(shù)論文起標(biāo)題風(fēng)格的短句，今天的關(guān)注點都在“Attention”上，但在當(dāng)時的研究背景里，它更像是在有針對性的喊話：

多頭重要，自注意力重要，但RNN不再重要，這打破了當(dāng)時所有人搭建模型時的慣例，也是和周伯文等之前研究者的論文最大的區(qū)別。

這篇論文和Transformer架構(gòu)徹底改變了一切，它解決了模型長距離記憶的問題。Ilya Sutskever在近期一次采訪中回憶，OpenAI在論文出現(xiàn)第二天就立刻徹底轉(zhuǎn)向了Transformer架構(gòu)。

而后，2020年5月OpenAI基于Transformer架構(gòu)的GPT-3論文發(fā)表，2年后ChatGPT出現(xiàn)。之后的一切都是歷史。

“從注意力到自注意力，從BERT到GPT-3，核心的思想都是當(dāng)不再依賴輸出或待預(yù)測詞的下文等未來的信息時、當(dāng)可以用更多的數(shù)據(jù)來更充分訓(xùn)練AI模型時，我們看到了AGI的影子“。

弄潮的人會更早意識到新浪潮到來，在看到GPT3后，當(dāng)時已經(jīng)在京東擔(dān)任高級副總裁的周伯文給自己的職業(yè)生涯做了一個重要的決定：

創(chuàng)業(yè)。

2021年下半年，他向工作了4年的京東提出離職。他曾在這里一手搭建起京東的整個AI團(tuán)隊，領(lǐng)導(dǎo)了云與AI的整合和戰(zhàn)略刷新，把生成式人工智能用到千人千面的個性化商品營銷和爆款產(chǎn)品創(chuàng)新中，并收獲了亮眼的提升數(shù)據(jù)。2020-2021年生成式人工智能還是早期探索，很少有人愿意為此而重新出發(fā)，但他看到的未來讓他無法等待。

人生就是“connect the dots”。周伯文喜歡喬布斯這個提法，而對他來說，把這些點連接起來的一刻到了。

銜遠(yuǎn)科技的誕生

一個無限的符號。左邊是產(chǎn)品，右邊是消費者。

周伯文在2021年底的一天在一張A4紙上畫下了這個圖案，之后銜遠(yuǎn)科技誕生。

Dots connected。

這種基于生成式的交互智能就是ChatGPT成功背后的重要機(jī)制，但在ChatGPT還沒出現(xiàn)的當(dāng)時很少有人懂。

離開大船，帶來的是巨大的沉沒風(fēng)險，但他自己想的很清楚。

“終局思考加上對技術(shù)階段和成熟期的判斷，讓我在2021年決定干這件事情?！痹阢曔h(yuǎn)科技位于中關(guān)村的辦公室，周伯文對我說。他的聲音有些沙啞，今年以來他每一天的行程以小時劃分，但精力依然充沛，提到技術(shù)的演進(jìn)節(jié)點，不自覺會興奮地提高音量。

“展開來說，首先是技術(shù)驗證，一方面是GPT3這些模型明顯看出生成式的能力越來越強(qiáng)。另一方面是我自己早期的一系列技術(shù)和效果驗證。用生成式AI來做的內(nèi)容和產(chǎn)品創(chuàng)新等比人類專家的轉(zhuǎn)化率提高30%?！?/p>

兩相結(jié)合，周伯文創(chuàng)辦銜遠(yuǎn)科技要做的，就是用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系。

“過去的模式雖然已有很多新AI技術(shù)的實踐，但數(shù)智化產(chǎn)業(yè)在追求單點，成千上萬個小的模型，解決一個個具體環(huán)節(jié)。我希望做一個基礎(chǔ)大模型，學(xué)習(xí)商品供應(yīng)鏈各個環(huán)節(jié)，并以消費者為中心提升關(guān)鍵環(huán)節(jié)效率?！?/p>

但果不其然的，這個模式在一開始并沒太多人理解。周伯文又再次需要做一個判斷：這些技術(shù)思考和現(xiàn)實的商業(yè)模式之間的空隙，他是否又一次太超前了。

“超前是我的常態(tài)，但我當(dāng)時判斷是，沒有太超前。”他對我說。“我總是說，技術(shù)的突破，核心是你的愿景是什么。”

周伯文的技術(shù)愿景顯然指向通用人工智能，而這一次生成式人工智能的進(jìn)展，讓他更清晰看到通用人工智能的可能性，其中最關(guān)鍵的改變，就是人與人工智能的交互關(guān)系的變化。

“過往大家都把人機(jī)對話認(rèn)為是一種應(yīng)用。我為什么要去做交互呢？我不認(rèn)為它是個應(yīng)用，從人類歷史早期開始，從孔子與72門徒到雅典學(xué)派，人類知識的積累、沉淀、傳播，其實都是通過人和人的對話、交互實現(xiàn)的。AI時代類似，我認(rèn)為人機(jī)對話是一個學(xué)習(xí)與對齊的手段，通過交互，人可以不斷地教AI，完成人和AI在復(fù)雜任務(wù)上的分工協(xié)同，并同時確保AI的目標(biāo)和子目標(biāo)都與人類對齊?！敝懿恼f。

在ChatGPT出現(xiàn)后，這種判斷成了一種共識。但在2022年初當(dāng)他去清華大學(xué)提出想要做這個課題時，大家也感到新奇。周伯文離開京東后，受聘為清華大學(xué)電子工程系長聘教授、清華大學(xué)惠妍講席教授，并設(shè)立“協(xié)同交互智能研究中心” 。他同時擁有學(xué)界和創(chuàng)業(yè)者的雙重身份，希望通過這兩種身份圍繞學(xué)術(shù)與產(chǎn)業(yè)的協(xié)同更好的助推AI創(chuàng)新發(fā)展。

什么才是中國的OpenAI

在中關(guān)村不大的會議室里，周伯文給我展示他2021年底最早設(shè)計銜遠(yuǎn)科技的技術(shù)底座與商業(yè)模式時的幻燈片，網(wǎng)絡(luò)投屏延遲有些高，“我們的網(wǎng)絡(luò)資源都在訓(xùn)練模型，”他半開玩笑地說。

這家公司正在按照他的愿景，穩(wěn)步推進(jìn)每一個技術(shù)細(xì)節(jié)，打造著模型和產(chǎn)品。

用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系，周伯文最終將它們指向5D：發(fā)現(xiàn)，定義，設(shè)計，開發(fā)，轉(zhuǎn)化（Discover，Define，Design，Develop，Distribute）。周伯文在和客戶的溝通中發(fā)現(xiàn)，這5D基本涵蓋了品牌和制造商的所有需求。

這5D的任何地方不能只考慮用戶或者產(chǎn)品，而是需要把它們鏈接起來看，也就是需要彼此交互。這也是與以往的不同——5D并不新鮮，它們早已存在，過往周伯文也用技術(shù)走通過每一個D，但問題是在大模型之前，模型訓(xùn)練和部署成本都很高。更重要的是，它們是彼此分割的，哪怕是曾經(jīng)火熱一時，試圖解決這一問題的數(shù)據(jù)中臺概念也沒能改變這個事實。

“當(dāng)我做了數(shù)據(jù)中臺后，發(fā)現(xiàn)這是一個偽命題，因為它是一個ad hoc（臨時安排）的東西，是事后定義的。所有人用不同軟件看到的數(shù)據(jù)還是不同，因為最終的入口不同。但銜遠(yuǎn)科技的大模型做成后，所有企業(yè)將使用5D大模型來實現(xiàn)數(shù)智化轉(zhuǎn)型，將其成為統(tǒng)一的入口?！彼f。

“生成式人工智能讓5D第一次有可能用同一個AI基礎(chǔ)模型跑起來。而且能夠?qū)?D的數(shù)據(jù)集中到一起并實現(xiàn)全部穿透，這類場景以前是不存在的?！?/p>

“在應(yīng)用落地層面，我們研發(fā)的領(lǐng)銜Collaborative Innovation Platform SaaS基于大模型的多模態(tài)理解、推理與生成能力，通過深刻洞察消費者、場景、商品、品參、研發(fā)，協(xié)助企業(yè)發(fā)現(xiàn)商業(yè)機(jī)會與產(chǎn)品創(chuàng)新。同時，銜遠(yuǎn)科技的ProductGPT多輪對話平臺為企業(yè)每個員工提供根據(jù)不同職業(yè)角色深度定制的個人助手，通過提供角色特定的技能與知識滿足其特定的工作需求。例如，銜遠(yuǎn)科技的消費者研究個人助手會提供研究市場趨勢、理解消費者需求、市場調(diào)研等專業(yè)技能與相關(guān)知識?！?/p>

銜遠(yuǎn)科技在今年3月1日已完成數(shù)億元天使輪融資，由啟明創(chuàng)投領(lǐng)投，經(jīng)緯創(chuàng)投跟投。不過，在今天已經(jīng)被一定程度上塑造的中國大模型商業(yè)語境里，這樣的模型思路似乎會被立刻歸類為“垂直模型”，人們認(rèn)為它需要被建立在一個更強(qiáng)大的，全能的通用大模型之上，而后者才是“百模大戰(zhàn)”的焦點。

但周伯文并不這么認(rèn)為。

“我以前沒用大模型這個詞，現(xiàn)在大家這樣理解，沒辦法（也要用起來），這樣有好處，就是簡潔。但它也會把很多東西混淆在一起?！?/p>

第一是技術(shù)上，他認(rèn)為，一方面只強(qiáng)調(diào)大就會讓人們把GPT這種dense model和其他一些MOE（拼接模型，可以大很多）放一起比較，這樣并沒有意義。另一方面，目前模型的確需要足夠大才能涌現(xiàn)一些能力，但未來一定會有新的辦法，比如，未來訓(xùn)練一定要提供比現(xiàn)在還多的高質(zhì)量、高智慧密度的數(shù)據(jù)，但模型的表征架構(gòu)不一定必須要數(shù)量級的增長，如果一定要的話可能是我們的表征學(xué)習(xí)還不夠好；推理就更明顯，一定是越小越好。

“我一直認(rèn)為，模型不是越大越好。我們說大模型其實關(guān)鍵是模型提供了預(yù)訓(xùn)練能力，具備了基礎(chǔ)能力，后面怎么去用是另一個問題?！?/p>

第二在商業(yè)模式上，“大”其實對應(yīng)的是ROI里I的部分，但事實上沒人要去比I，要比的是R，I是分母越小越好，R是分子越大越好。

以及大模型本身更適合做的是長尾場景，這些往往也是低價值場景。而一些數(shù)據(jù)上的變化也開始印證這個判斷。

“從上個月起，ChatGPT的API 調(diào)用量明顯下降，日活下降5%，而它之前突增之后也才到谷歌日活的2%。”他說?！叭藗儾恢烙盟墒裁矗划?dāng)做是一個玩具或一個簡易工具。我的判斷是必須進(jìn)入生產(chǎn)力環(huán)節(jié)，成為人們在生產(chǎn)生活中的剛需?！?/p>

所以在銜遠(yuǎn)科技，大模型在技術(shù)底層框架上必須具備通用大模型技術(shù)的基礎(chǔ)能力，并用科學(xué)的方法評估，但同時也需要專業(yè)的訓(xùn)練。

“人們都在用LLM來簡述OpenAI做的事情，但實際OpenAI自己的定義是——基于多頭注意力機(jī)制預(yù)測下一個詞訓(xùn)練出來的最佳的世界知識壓縮器。”周伯文找到OpenAI科學(xué)家的分享對我說。

也就是，一件產(chǎn)品誕生全過程的知識第一次可以用最佳方式壓縮進(jìn)一個模型。把人和消費者所有交互的數(shù)據(jù)壓縮之后來預(yù)測下一個“詞”，并可以學(xué)會人的場景，情感，來預(yù)測產(chǎn)品的參數(shù)。

周伯文喜歡引用諾貝爾經(jīng)濟(jì)學(xué)獎得主丹尼爾·卡尼曼提出的一個理論來解釋人工智能與人的關(guān)系：人們的思考方式有兩類，“系統(tǒng)1”基于直覺和經(jīng)驗判斷，快速、不需要大量計算，“系統(tǒng)2”需要語言、算法、計算、邏輯。最初人們以為商業(yè)化的AI更適合做“系統(tǒng)1”的工作，比如人臉識別等。ChatGPT則證明了AI做非給定任務(wù)系統(tǒng)2的可行性。

而具體到銜遠(yuǎn)科技，可以拿亞馬遜的貝索斯來比喻，他有天生的思維，有亞馬遜強(qiáng)大的團(tuán)隊和數(shù)據(jù)分析能力，也就是強(qiáng)大的系統(tǒng)2，但不是所有商家都有這么強(qiáng)大的能力。但今天一個吃透了互動數(shù)據(jù)的模型可以讓這些能力平民化。

銜遠(yuǎn)科技就是要幫助更多的企業(yè)家成為貝索斯。

據(jù)品玩了解，銜遠(yuǎn)科技正在訓(xùn)練的基礎(chǔ)模型會在具備通用能力的基礎(chǔ)上，更擅長理解人與商品，通過多輪對話方式為企業(yè)與消費者以生成式人工智能幫助從商品洞察、定位、設(shè)計、研發(fā)到營銷的創(chuàng)新。

周伯文設(shè)計的訓(xùn)練方法，是用約三分之二的通用人工智能的問題，比如數(shù)學(xué)推理等，再加上三分之一完全圍繞著5D的知識來一起訓(xùn)練。

周伯文認(rèn)為，這是一個用全新技術(shù)驅(qū)動的全新挑戰(zhàn)，而并不是簡單地去追隨做“下一個OpenAI”。

“因為在OpenAI成功的一瞬間，就意味著任何在該領(lǐng)域跟隨的其他公司都不再有是OpenAI的可能。”他說。

“OpenAI是什么，是在沒有前人成功的例子上，靠自己對終局的判斷，一步步往前走，認(rèn)為未來應(yīng)該是這樣，而不是那樣。如果今天只是做跟隨，那就不是中國的OpenAI。”

標(biāo)簽：營銷大模型 Open AI 人機(jī)協(xié)同 AIGC 科技 AI 創(chuàng)新未來人工智能

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI

本文作者的其他文章

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI

對話周伯文：當(dāng)你真的明白了ChatGPT，你就不會想再做一個OpenAI的評論 (共條)