陸奇演講《新范式 新時(shí)代 新機(jī)會(huì)》(文字、框架)

注:1.未來已來、變革發(fā)生,希望觀看大牛的演講能更好的預(yù)測未來、了解變革。
2.陸奇:曾任雅虎副總裁、微軟執(zhí)行副總裁、百度集團(tuán)總裁兼首席運(yùn)營官。(陸奇集資深專業(yè)技術(shù)知識(shí)、出色的領(lǐng)導(dǎo)能力和廣泛的商業(yè)知識(shí)于一身,在業(yè)界是非常罕見的奇才?!薄④汣EO斯蒂芬·鮑爾默)
3.b站有完整的視頻版。
4.文字部分是機(jī)器翻然后我手動(dòng)修改的,框架部分是用obsidian中白板做的(可惜無法全部分享,只能局部截圖),PPT和視頻版有差別,沒有找到視頻中的版本,所以用的是舊版的。
感謝各位同學(xué)們在周末抽時(shí)間參加今天的分享會(huì),還有不少同學(xué)在分會(huì)場、在線上,我代表奇跡所有的同學(xué)們感謝大家抽時(shí)間(來聽)。
今天我給大家要分享的是咱們面臨的一場非常非常大的一個(gè)技術(shù)變革。這次的變革是范式①的變革,一會(huì)我給大家仔細(xì)拆解,在一切都要變的時(shí)候,我們奇績用傳統(tǒng)的體系、內(nèi)在的結(jié)構(gòu),(解釋)任何事物的內(nèi)在結(jié)構(gòu)和它的發(fā)展體系、新的現(xiàn)象是如何形成的。這樣的話,我們可以系統(tǒng)的分析梳理,幫助我們把空好機(jī)會(huì),我們今天也想分享給大家,希望能夠?qū)裉烀课粎⒓油瑢W(xué),對你們在今天這個(gè)時(shí)代能夠更好的把握好機(jī)會(huì)。

1、新范式

我們今天分享的是先講新的范式。范式,它有兩個(gè)緯度,第一:任何范式變更的時(shí)候思考方式變了,第二執(zhí)行體系變了。所以我們先講范式,然后再講這個(gè)范式所帶來的新的時(shí)代的發(fā)展特征,最后再系統(tǒng)性的跟所有同學(xué)們分享一下我們?nèi)绾伟盐蘸眠@個(gè)時(shí)代給我們帶來的機(jī)會(huì)。最后再簡單介紹一下奇績創(chuàng)壇。
1.1、新拐點(diǎn)


這一次的范式變革,我們將從三個(gè)維度跟同學(xué)們分享,因?yàn)檫@次的變革比較深、比較廣。首先從產(chǎn)業(yè)發(fā)展的維度來分析這一次的范式的變更,它所代表的是什么?這一頁講的是產(chǎn)業(yè)發(fā)展的范式,這里我們用的體系(它的內(nèi)在的結(jié)構(gòu)性的體系)是三位一體,三位一體是個(gè)非常穩(wěn)定的體系結(jié)構(gòu),它源自于復(fù)雜學(xué)。我們每個(gè)人是個(gè)復(fù)雜體系,每個(gè)公司、每個(gè)組織是個(gè)復(fù)雜體系,一個(gè)社會(huì)是復(fù)雜體系,數(shù)字化產(chǎn)業(yè)也是個(gè)復(fù)雜體系。
復(fù)雜體系,它的穩(wěn)定的結(jié)構(gòu)式三位一體。(第一)它永遠(yuǎn)有一個(gè)信息子系統(tǒng),它要從環(huán)境當(dāng)中獲取信息。第二它要有一個(gè)模型子系統(tǒng),它必須要把信息表達(dá)的足夠有效,可以做記憶、推理、規(guī)劃和分析,針對它的想要達(dá)到的目的。第三是行動(dòng)體系,根據(jù)規(guī)劃,可以跟行動(dòng)、環(huán)境做交互,轉(zhuǎn)換能源,達(dá)到它的目的,對人來講,最終的目的永遠(yuǎn)是減熵(混亂程度減小,省事)。這是我們用來分析這次范式的內(nèi)在結(jié)構(gòu)體系:三位一體。有了這個(gè)三位一體的結(jié)構(gòu)之后,我們畫一下這張圖的底層。底層是數(shù)字化產(chǎn)業(yè)過去50多年,每一個(gè)年代的它的發(fā)展的平臺(tái)(最下面一條線)。上面我們用三種不同的顏色代表三位一體的三個(gè)子系統(tǒng)。綠色代表的是信息系統(tǒng),過去我們數(shù)字化產(chǎn)業(yè)大部分是信息系統(tǒng);藍(lán)色代表的是模型系統(tǒng);紅色代表的是行動(dòng)系統(tǒng)。
在綠色這條線上有大量的公司IBM、微軟等。但是在1995年到1996年有個(gè)大的拐點(diǎn),這是數(shù)字化產(chǎn)業(yè)的發(fā)展體系,它是拐點(diǎn)是平臺(tái)驅(qū)動(dòng)的。數(shù)字化體系發(fā)展95、96年出現(xiàn)拐點(diǎn),它代表著什么樣的機(jī)制?為什么會(huì)發(fā)生這樣一個(gè)拐點(diǎn)?根本原因成本的結(jié)構(gòu)變化,通常,成本的結(jié)構(gòu)變化是任何大的產(chǎn)業(yè)變革的原因,如果有一種生產(chǎn)力,這個(gè)產(chǎn)業(yè)都需要用,它的成本從邊際走向固定,(這種變化)往往是改變這個(gè)產(chǎn)業(yè)的一切。信息系統(tǒng)的拐點(diǎn)是95、96年信息獲取的成本從邊際走向固定。我給大家舉個(gè)例子,我在卡耐基梅隆大學(xué)還沒畢業(yè),差不多要畢業(yè)了,那個(gè)時(shí)候要離開匹茲堡,開車出城要拿一張3美元的地圖。同學(xué)們,信息獲取曾經(jīng)很貴,今天我要地圖,不到400毫秒,我如果用谷歌花費(fèi)不到一美分,但是谷歌是1年付了10億美元的固定成本。地圖仍然是需要成本的,只是成本沒有變掉,只不過有一系列的技術(shù)機(jī)制,它可以去匯聚大量的信息、分發(fā)大量的信息,它的成本結(jié)構(gòu)變了,它從邊際(每次都要付很多)到一次性付很多,只要用簡單的商業(yè)模式,偉大的公司都可以誕生,谷歌、蘋果的移動(dòng)時(shí)代,亞馬遜的云時(shí)代,都是(擁有)核心技術(shù)可以高度的、濃縮的聚焦信息,分發(fā)信息,根本的一切是信息的獲取成本從邊際走向固定,信息變得無處不在,徹底改變了世界。
大家可能記得蓋茨先生曾經(jīng)寫過一個(gè)Memo《The Internal Revolution: Information at the fingertip》,即信息無處不在,這個(gè)已經(jīng)實(shí)現(xiàn)了,最近他又寫了一個(gè)Memo,他說這一次的變革似曾相識(shí),感覺(和之前)一樣的大,因?yàn)檫@次的變革在根本上它的結(jié)構(gòu)是一樣的,為什么這是一樣的?我們看一下2022年、2023年藍(lán)色的這個(gè)拐點(diǎn),什么事情發(fā)生了?模型的成本開始從邊際走向固定。雖然我們做模型不是剛開始做,我們做過很多模型:自動(dòng)駕駛和自然語言處理,但是都是針對每一個(gè)任務(wù)開始做一個(gè)不同的模型,現(xiàn)在我們有新一代的技術(shù)叫大模型,模型的成本開始從邊際移向固定。為什么這么重要,因?yàn)槟P透畔⒁粯?,它是一個(gè)影響我們所有一切的核心產(chǎn)能。我們在社會(huì)當(dāng)中要生產(chǎn)任何東西都需要信息,信息無處不在改變了世界,這一次是模型,模型就是知識(shí),我們做任何一件事情、生產(chǎn)任何一樣?xùn)|西都需要知識(shí)。知識(shí)的力量是無窮,它的產(chǎn)能更大,所以這次的變革,它的攀升的速度,它的拐點(diǎn)猛烈的進(jìn)展,一定會(huì)比過去更強(qiáng),第一性原理②你可以推演出來。
為什么模型這么重要?還有一個(gè)維度,因?yàn)樗總€(gè)人有關(guān)、跟我們做的每一件事情有關(guān)、跟我們社會(huì)每一個(gè)組織、每一個(gè)結(jié)果都強(qiáng)相關(guān)。因?yàn)?strong>我們每個(gè)人在我們?nèi)粘I町?dāng)中、在社會(huì)活動(dòng)當(dāng)中、在企業(yè)上班工作當(dāng)中我們所做的一切都是三類模型的組合。我們有認(rèn)知模型:我們能聽、能看、能思考、能規(guī)劃;我們有任務(wù)模型:我們能搬椅子、爬樓梯、剝雞蛋等等;我們還有領(lǐng)域模型,有些人是律師、有些人是設(shè)計(jì)師、有些人是碼農(nóng),但是我們所做的一切、我們對社會(huì)的價(jià)值都是這三類模型的組合,同時(shí),我們需要在社會(huì)上組織的事情:一個(gè)企業(yè)、一個(gè)城市、一個(gè)國家,他們所要解決的問題都是領(lǐng)域模型、場景模型。今天我們對社會(huì)的價(jià)值是我們這些模型組合來產(chǎn)出的。但是大家想一想,除非你有獨(dú)到的任務(wù)模型、獨(dú)到的認(rèn)知模型、獨(dú)到的領(lǐng)域模型,(否則)你所做的一切很快大模型都能做,而且這個(gè)速度一定會(huì)比我們想象的更要快。
所以這一次的拐點(diǎn)已經(jīng)發(fā)生,他攀升的速度一定會(huì)比95、96年(拐點(diǎn))還要快。整個(gè)一切都將變,模型將無處不在,知識(shí)將無處不在。今天我們打開手機(jī),打開任何一個(gè)設(shè)備,信息(就會(huì))過來,以后打開任何個(gè)設(shè)備模型(就會(huì))過來,醫(yī)生診斷是模型、律師服務(wù)是模型、設(shè)計(jì)師是模型、藝術(shù)家是模型,它都無處不在。邊際成本變得越來越低,一系列的偉大的公司會(huì)因此而誕生,因?yàn)樗麄儗⒏冻龉潭ǔ杀?,他們將發(fā)明新的商業(yè)模式,綜合在一起,我們整個(gè)產(chǎn)業(yè)將變革,產(chǎn)生新一代的世界。這是這個(gè)藍(lán)色拐點(diǎn)所代表的。在攀升這個(gè)拐點(diǎn)的過程當(dāng)中,我們可以看到OpenAI和微軟合作顯然是領(lǐng)先了,谷歌在追,還有很多大公司,美國的、中國的都在積極參與這一波的攀升。
有了這個(gè)拐點(diǎn)的背后的發(fā)展體系的機(jī)制解釋之后,那我們可以自然地回答,下個(gè)拐點(diǎn)是什么?(其實(shí))很容易分析,(首先)三維一體是穩(wěn)定的結(jié)構(gòu),(那么)下個(gè)拐點(diǎn)一定是行動(dòng)體系的拐點(diǎn),很快就會(huì)來,因?yàn)檫@一次的模型體系它會(huì)加速下個(gè)拐點(diǎn),模型是叫生成模型,它可以控制一切東西:控制機(jī)器人、控制自動(dòng)駕駛、控制空間計(jì)算③(數(shù)字世界)。未來的一切行動(dòng)將是三個(gè)體系的組合,機(jī)器人、自動(dòng)駕駛和數(shù)字化的空間計(jì)算(數(shù)字世界)。特斯拉處在一個(gè)非常優(yōu)勢的一個(gè)地位,其他公司會(huì)不會(huì)參與下一波,搶占下個(gè)拐點(diǎn)的,我們拭目以待。但是毫無疑問,這個(gè)拐點(diǎn)已經(jīng)看得出來,已經(jīng)在加速。所以,把這個(gè)三個(gè)加在一起,一個(gè)信息生態(tài)、一個(gè)模型生態(tài)和一個(gè)無處不在的有自主體系的行動(dòng)生態(tài),(這三個(gè)生態(tài))組合在一起,數(shù)字化技術(shù)和人類社會(huì)一起共同進(jìn)化,這個(gè)共同進(jìn)化所帶來的有可能是通用智能。通用智能必須擁有四個(gè)核心的緯度:第一是涌現(xiàn),第二是代理,第三是功能可見(affordence),第四是具身(embodiment)④。所以這是我們這一次數(shù)字化產(chǎn)業(yè)發(fā)生新范式的根本原因,這個(gè)拐點(diǎn)所代表的機(jī)會(huì)是由這個(gè)產(chǎn)業(yè)的發(fā)展結(jié)構(gòu)來決定的,我再重復(fù)一下:這個(gè)發(fā)展結(jié)構(gòu)就是有一樣生產(chǎn)資源,這一次是模型、是知識(shí),它的成本結(jié)構(gòu)將從邊際移向固定。
1.2、歷史環(huán)境


我們再分析一下這一次范式變更的第二個(gè)維度,這次范式變更在人類由技術(shù)驅(qū)動(dòng)社會(huì)發(fā)展的進(jìn)程上,它扮演的角色是多重的,這張圖也是一個(gè)內(nèi)在的結(jié)構(gòu),這個(gè)內(nèi)在結(jié)構(gòu)描述了技術(shù)是如何驅(qū)動(dòng)人類社會(huì)進(jìn)展的。我們從這個(gè)內(nèi)在的結(jié)構(gòu)來分析判斷一下這一次的范式,它在其它幾個(gè)層面對未來的發(fā)展有什么樣的重要的影響。這張圖給大家分析、拆解一下。
首先,我們看這張圖的左下角,這張圖左下角它所代表的是人類永遠(yuǎn)的追求:知識(shí)、能力和財(cái)富。(它)有三大核心要素,第一是科學(xué),科學(xué)是解釋和預(yù)測,科學(xué)發(fā)展從第一范式是經(jīng)驗(yàn)主義到第二范式系統(tǒng)性的做實(shí)踐,第三范式是大理論做模擬,第四范式是數(shù)據(jù)驅(qū)動(dòng)到第五范式:數(shù)據(jù)加計(jì)算驅(qū)動(dòng)。這一次的技術(shù)變革將直接的驅(qū)動(dòng)新一代的科學(xué)范式,科學(xué)的第四和第五范式,我們后面會(huì)講,為什么這次變革它是從根本意義上將推動(dòng)一系列的變革。
第一,這次的變革它是驅(qū)動(dòng)了新一代的科學(xué)發(fā)展范式,人類社會(huì)進(jìn)步的最根本的生產(chǎn)力是科學(xué)的進(jìn)步;第二是人類的經(jīng)濟(jì)發(fā)展體系,它是技術(shù)驅(qū)動(dòng)的,技術(shù)是什么,技術(shù)的本質(zhì)是:用科學(xué)可解釋的原理,用能力去改變自然現(xiàn)象,用信息去轉(zhuǎn)化能源,來服務(wù)人的需求。技術(shù)驅(qū)動(dòng)的社會(huì)經(jīng)濟(jì)發(fā)展只有三種大的模式,它都是信息和能源的組合決定的,農(nóng)業(yè)社會(huì)是簡單的光合作用,工業(yè)社會(huì)是化石能源、機(jī)器設(shè)備、電器設(shè)備、電力設(shè)備等等,我們現(xiàn)在所處的是第三代是數(shù)字化時(shí)代,這條藍(lán)色的曲線。數(shù)字化時(shí)代從根本意義上是用數(shù)字、用可編程的能力去更有效的轉(zhuǎn)換能源,這一次數(shù)字化范式的變更,將直接驅(qū)動(dòng)模型和行動(dòng)體系用數(shù)字化的能力去轉(zhuǎn)化能源,將被大步的往前提了一層,這是這張圖上的第二點(diǎn)。
這張圖講的另外一層:數(shù)字化是人的延伸,數(shù)字化是人自我的認(rèn)知和能力的延伸。人類永遠(yuǎn)會(huì)認(rèn)識(shí)世界,改造世界,有了數(shù)字化的能力之后,我們將持續(xù)不斷的去改造世界為我所用。要改造世界,必須要轉(zhuǎn)換能源,用信息轉(zhuǎn)換能源。所以這張圖上面可以看到的有新的能源產(chǎn)業(yè)、新的能源科技,(都是)可持續(xù)驅(qū)動(dòng)的。能源轉(zhuǎn)化只有兩種形式:一種是用生命體系來轉(zhuǎn)化(biological pathway),一種是用物理體系轉(zhuǎn)換能源,我們將有新的生命科技和新的材料科技。第三,能源轉(zhuǎn)化不需要有物理空間,這次的技術(shù)革命將更快的驅(qū)動(dòng)新一代的空間技術(shù),地上的是自動(dòng)駕駛、水下的深海、低空、軌道空間、軌道之外的指數(shù)深空、星座、其他星體等等。加在一起我們可以看到的是人類社會(huì)改變世界、改造世界為我所用,將直接和間接的被這個(gè)范式進(jìn)一步的驅(qū)動(dòng)。
最后,當(dāng)中這一環(huán),第三點(diǎn),也跟同學(xué)們分享一下??萍简?qū)動(dòng)人類社會(huì)進(jìn)步的速度將不斷的加快,什么是科技產(chǎn)業(yè)?我經(jīng)常會(huì)給同學(xué)們舉個(gè)例子,為什么福特不是一家科技公司?特斯拉斯是一家科技公司?根本區(qū)別在哪里?一個(gè)科技公司跟一個(gè)非科技公司根本區(qū)別在什么?(區(qū)別在能否)用信息更有效的轉(zhuǎn)換能源。特斯拉本質(zhì)上是軟件驅(qū)動(dòng)的公司,福特是舊一代的公司。所以這一次的變革,將更大程度上讓更多的企業(yè)成為科技公司,技術(shù)產(chǎn)業(yè)將更快的驅(qū)動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展。所以我們把這個(gè)四個(gè)點(diǎn)組合在一起,這次范式變革將在更多的方面、更多的維度驅(qū)動(dòng)社會(huì)進(jìn)展。
1.3、社會(huì)影響


接下來再講第三個(gè)維度,這次范式變革對人類社會(huì)關(guān)系、對人的影響。它所帶來的根本性的變化和影響。有很多人、也有很多媒體說這一次的變革堪比工業(yè)革命,從對人和對人的人類社會(huì)關(guān)系這個(gè)角度來講,可以這樣類比。這張圖是做一個(gè)完整的分析,首先我們看下,人類社會(huì)進(jìn)展由技術(shù)驅(qū)動(dòng),它每一次重大的進(jìn)展,生產(chǎn)力帶來生產(chǎn)關(guān)系、社會(huì)關(guān)系的不同。(早期)在農(nóng)業(yè)社會(huì)之前我們是游牧民族,我們到處走。自從我們發(fā)明了農(nóng)業(yè)技術(shù)之后、發(fā)明了家訓(xùn)動(dòng)物之后、可以種植物之后,在根本意義上改變?nèi)祟?。在哪里改變了?我們有一個(gè)概念叫家,我們固定下來了。人類社會(huì)進(jìn)入工業(yè)社會(huì),又一次重大的變革,我們開始有更多自由,農(nóng)業(yè)社會(huì)帶來好處是有家,它負(fù)面的是我們沒有行動(dòng)的自由,(我們被)綁在土地上,工業(yè)社會(huì)給人更多的自由,我可以去別的地方。但是在工業(yè)社會(huì)早期仍是需要做大量的體力勞動(dòng),工業(yè)社會(huì)所帶來的一代一代的技術(shù)、機(jī)械設(shè)備、電子設(shè)備、電氣設(shè)備等等,讓人的體力勞動(dòng)逐步的降低。同時(shí),信息社會(huì)(手機(jī)、電腦)帶來大量的信息,造成了我們的產(chǎn)業(yè)、社會(huì)從商品經(jīng)濟(jì)進(jìn)入今天的服務(wù)經(jīng)濟(jì),我們都用信息、用腦力勞動(dòng)來產(chǎn)生商業(yè)價(jià)值、產(chǎn)生社會(huì)價(jià)值。今天我們社會(huì)最有代表性的職業(yè)是“碼農(nóng)”、設(shè)計(jì)師、數(shù)據(jù)分析師等等。但是服務(wù)經(jīng)濟(jì)很快就會(huì)變更,我們所做的一切的腦力勞動(dòng),除非你有特殊的認(rèn)知、特殊的能力,否則一切都將在根本意義上被改變。這一次模型的成本降低,我們將很快從服務(wù)經(jīng)濟(jì)進(jìn)入體驗(yàn)經(jīng)濟(jì)。在從今天走向未來的過程當(dāng)中,我們認(rèn)為有三個(gè)職業(yè)是最為重要的,(第一個(gè)職業(yè)是)創(chuàng)業(yè)者,創(chuàng)業(yè)者把技術(shù)、把得到的見解,變成體驗(yàn)、變成價(jià)值,(第二個(gè)職業(yè)是)科學(xué)家,做新一代的科研(一會(huì)我們講原因),另外,(第三個(gè)職業(yè)是)有獨(dú)到見解能力的藝術(shù)家,這一類的組合將會(huì)帶來下一代的體驗(yàn)經(jīng)濟(jì)。到了下一代,當(dāng)三位一體的人工智能體系、數(shù)字化體系(成熟時(shí)),行動(dòng)也變得無處不在了。到了最后人的體力勞動(dòng)和腦力都不需要的時(shí)候,人類將探索新的價(jià)值體系,這個(gè)時(shí)代我們暫且叫它AI經(jīng)濟(jì)。一會(huì)我會(huì)講一下在OpenAI,在YC,我們也有一個(gè)研究項(xiàng)目叫UBI(Universal Basic Income),就是如果人不需要上班的時(shí)候人的驅(qū)動(dòng)力是什么?人的行為將是什么?所以這個(gè)時(shí)代,我們將一起探索,最后由于數(shù)字化的能力,由于web3等等,我們是不是回到新一代的游牧(生活),因?yàn)槲覀儾恍枰谌魏我粋€(gè)地方固定下來。人類的發(fā)展是技術(shù)驅(qū)動(dòng)的,它的探索可以從過去看到一定的未來的一個(gè)結(jié)構(gòu)體系。這是從第三個(gè)維度來看這一次范式對我們每個(gè)人、對整個(gè)社會(huì)所帶來的影響。
1.4、締造者


接下來我想講一下新的范式(發(fā)生),我們?nèi)绾稳ミm應(yīng)范式變革?它比一般的變革挑戰(zhàn)更大,你要用不同的方法去思考、用不同的方法去實(shí)踐,思考和實(shí)踐都變了。今天這個(gè)范式,我們?nèi)绾稳ふ覚C(jī)會(huì)?我建議大家從這個(gè)范式的締造者當(dāng)中得到重要的啟示,因?yàn)檫@一次范式的到來,在技術(shù)進(jìn)步這個(gè)角度來講,它不是水到渠成,它是一個(gè)突破。OpenAI七歲,去年10月份11月份,ChatGPT4接近可以演示、可以使用的時(shí)候,蓋茨先生看到Demo是目瞪口呆的,谷歌也是被震驚的。微軟和谷歌有的技術(shù)力量、研發(fā)力量、產(chǎn)業(yè)力量是遠(yuǎn)遠(yuǎn)超過OpenAI這么一個(gè)小的團(tuán)隊(duì)的,他們?yōu)槭裁茨軌蜃叩浇裉??是用了反共識(shí)的道路。他們的思考、他們的組織、他們的行為會(huì)給我們有很重要的啟發(fā),因?yàn)榉妒降淖兏撬伎俭w系變了、是實(shí)踐體系變的,那講一講OpenAI的思考體系有哪些重要的特征呢?
首先我們必須要了解OpenAI的歷史,要了解OpenAI的歷史,必須要了解Sam。
我能夠給大家分享這一頁,某種意義上也是因?yàn)槲腋鶶am是2005年認(rèn)識(shí)的,那個(gè)時(shí)候他才19歲,他剛剛進(jìn)入YC的第一波,在哈佛大學(xué)2005年。他是YC體系思路的繼承者和傳播者。2014年,他接管YC,成為YC的掌門人,2016年成立OpenAI。他和他的核心人員:llya Sutskever和Greg Brockman這三個(gè)人,包括一些其他的重要人員像John Schulman等等,是代表了新一代的、有特殊的組合能力(的人),可以推動(dòng)這個(gè)范式進(jìn)一步往前發(fā)展的思考體系和執(zhí)行體系。首先講一下OpenAI思考體系有哪幾個(gè)重要特征:第一是堅(jiān)信未來,堅(jiān)信通用智能一定會(huì)到來。任何都擋不住Sam的,沒有任何人可以擋住Sam,他設(shè)計(jì)的一切都不會(huì)讓任何人干預(yù)他、控制他,堅(jiān)信,堅(jiān)持;第二,在技術(shù)上,他們相信兩個(gè)重要的技術(shù)點(diǎn),只要模型足夠深,有了足夠的深度之后,數(shù)據(jù)加上算力,一個(gè)高效的訓(xùn)練體系,OpenAI早期就是要解決兩個(gè)問題UL(Unsupervised Learning) and RL(Reinforcement Learning),就是增強(qiáng)學(xué)習(xí)和無監(jiān)督學(xué)習(xí)⑤,因?yàn)楸仨?strong>要無監(jiān)督才能高效的用這個(gè)足夠深的模型去探索通用智能,強(qiáng)化學(xué)習(xí)或者增強(qiáng)學(xué)習(xí),跟進(jìn)化本質(zhì)相關(guān),最終這個(gè)模型為人類所用,很大程度上會(huì)在強(qiáng)化學(xué)習(xí)當(dāng)中找到未來的答案,堅(jiān)信這兩點(diǎn)。第三,在組織上、在行為上,他們堅(jiān)信這一代的組織,你既要做科研又要做工程,又要開發(fā)平臺(tái)和產(chǎn)品。OpenAI所代表的是新一個(gè)組織、新的能力,他們內(nèi)部所做的一切,既能做科研,又能寫代碼,又能做產(chǎn)品,不是分開來的。還有一個(gè)組織方法,要融到大量的資本,而且在組織結(jié)構(gòu)上,任何人都沒法影響你去追求你的目標(biāo)。OpenAI的融資結(jié)構(gòu)我也或多或少的參與了不少,它根本不是一家公司,也不是一個(gè)合伙制,它是一種嶄新的新型組織。OpenAI等到盈利結(jié)束之后,它所產(chǎn)生的一切都是社會(huì)公有的,它頂層是個(gè)non-profit,它是經(jīng)過深思熟慮之后,非常有勇氣的堅(jiān)持一步一步追求他們走的路徑,所以才能造成今天七年之后的突破,任何別人怎么說他們都不會(huì)影響。同學(xué)們,這一點(diǎn)特別重要,真正改變世界是有獨(dú)到的見解、堅(jiān)持不為任何其他所動(dòng)的人,他們做到了。
OpenAI的大事記里面,我跟同學(xué)們講幾個(gè)重要點(diǎn),技術(shù)上的,因?yàn)閷ξ覀円粫?huì)分享有重要關(guān)系。第一GPT1,他們前面一開始是做很多正向?qū)W習(xí)、做游戲、做機(jī)器人做了很多,他們覺得正向?qū)W習(xí)到了一定狀態(tài)足夠(使用),接下來是unsupervised learning,GPT1一開始不是用transformer,用LSTM,但是GPT1走出了重要的一步,就是大模型時(shí)代重要的一步:預(yù)訓(xùn)練⑥,針對自然語言,大家所關(guān)心的一系列的任務(wù),通過預(yù)訓(xùn)練基本上驗(yàn)證了可以達(dá)到單獨(dú)訓(xùn)練的水平,因?yàn)樽匀徽Z言有一組十幾個(gè)任務(wù),通過一起預(yù)訓(xùn)練,就光訓(xùn)練,不管什么任務(wù),預(yù)訓(xùn)練可以達(dá)到跟單獨(dú)訓(xùn)練一樣、甚至(比單獨(dú)訓(xùn)練)更好的結(jié)果,GPT1走出了第一步,歷史上有重大的意義。
GPT2也非常重要,驗(yàn)證了預(yù)訓(xùn)練之后可以把預(yù)訓(xùn)練的結(jié)果通過Fine tuning(微調(diào))⑥,遷移到任務(wù)模型當(dāng)中去。
GPT3是走出了根本性的一步。GPT3主要驗(yàn)證了很強(qiáng)的泛化能力⑥,零樣本或少樣本的泛化能力,尤其可以場景下學(xué)習(xí),不需要調(diào),不需要微調(diào),只要提示就可以做泛化,這里特別重要,一會(huì)我會(huì)跟同學(xué)們分享一下,因?yàn)槲覀內(nèi)耸且粋€(gè)通用智能的代表,我們?nèi)嘶旧鲜莻€(gè)零樣本泛化機(jī)器,雖然我們的大腦才25瓦,但是我們的泛化能力很強(qiáng),(這)是語言帶來的。所以GPT3是走出了根本的一步。
接下來看一下Codex代碼,為什么代碼重要?代碼是人方面的語言,如果跟代碼對齊了,大模型的邏輯分析能力一下提高很多。GPT3.5是目前重要的路標(biāo),GPT3.5走出了根本性的一步,讓這些模型可用。GPT3.5是指令微調(diào)⑥,現(xiàn)在指5萬多條指令大家都可以用,指令都可以去寫,把一切的路都打通了,ChatGPT就是用指令微調(diào),針對對話寫指令,人是怎么對話的,這開啟了歷史,在歷史上從來沒發(fā)生過一個(gè)產(chǎn)品在兩個(gè)月之內(nèi)擁有全球1億活躍的用戶,而且(用戶)還愿意付錢,每天都用,越用越覺得有價(jià)值,人類歷史上從來沒有發(fā)生過。
GPT4是多模態(tài)的⑥,完全的系統(tǒng)的工程化開發(fā)大模型。GPT4之后,PlugIn進(jìn)一步的生態(tài)化,每個(gè)月、每一周,OpenAI300多號(hào)人,高效、緊湊的不斷的往前進(jìn)展(2023年8月新聞:OpenAI申請GPT5商標(biāo),年底上線GPT5,預(yù)計(jì)實(shí)現(xiàn)通用人工智能,即強(qiáng)人工智能)。包括幾天之前的Bing,Bing后面用的就是ChatGPT的引擎,微軟的團(tuán)隊(duì)跟OpenAI團(tuán)隊(duì)緊密合作。
大家可以看到,如果一個(gè)團(tuán)隊(duì)是用新的范式的核心思考(方式),用新的范式的核心的實(shí)現(xiàn)體系,(那)你的創(chuàng)新能力有多大(潛力)。所以在這個(gè)時(shí)代,深度解讀一下OpenAI的成長歷史,他們怎么思考,他們怎么實(shí)踐,對我們每一位同學(xué)都有很大的意義。
1.5、動(dòng)力引擎


在這之后,我們講新的范式它背后一定是有它的核心技術(shù),核心技術(shù)使新的范式成為可能,這種核心技術(shù)就是這一頁我想講的。新的范式之后有一個(gè)新的動(dòng)力引擎,這里我跟大家仔細(xì)講一講,這個(gè)動(dòng)力引擎當(dāng)中我畫的每一點(diǎn)都非常重要,這個(gè)引擎本質(zhì)上是一個(gè)模型體系GPT(Generative Pretrained Transform)。
這里面有幾個(gè)點(diǎn)都是重要的技術(shù)的核心特性,第一,它能夠高效的訓(xùn)練、壓縮信息,表達(dá)整個(gè)世界上我們所知道的所有的知識(shí),這第一點(diǎn)本身就很重要,因?yàn)橐獕嚎s信息必須要有知識(shí),壓縮的越強(qiáng),它所代表的知識(shí)含量就越高,本質(zhì)上知識(shí)的定義是一種信息的表達(dá)可以用來解決多種任務(wù),這個(gè)信息的表達(dá)是非常緊湊的,所以第一點(diǎn)這個(gè)模型體系能夠壓縮、能夠表達(dá)全世界的知識(shí)。
第二,這個(gè)模型它能夠持續(xù)的提高泛化的能力,現(xiàn)在已經(jīng)很明顯,在(擁有)更多的參數(shù)、更多的Token⑦的情況下,涌現(xiàn)會(huì)出現(xiàn),關(guān)于涌現(xiàn)的論文非常活躍。涌現(xiàn)是怎么回事?同樣一個(gè)模型體系,我們增加參數(shù)、增加Token或者增加訓(xùn)練的時(shí)間,新的能力會(huì)演化出來,比如說是常識(shí)的推理能力、算數(shù)的能力、針對某一些任務(wù)解決問題的推理能力,(這些)會(huì)涌現(xiàn)出來,涌現(xiàn)不斷的發(fā)生。第二中,它的泛化能力,在潛概念latent concept、子概念sub concept⑧這一層非常清晰,在概念層泛化是不夠的,泛化能力是一切的一切。舉一反三,看到一個(gè)(甚至不看),就知道這是怎么回事,所以泛化能力是越來越強(qiáng)。
第三,推理能力不斷的增強(qiáng)和被探索出來。推理有多種推理:有演繹、有歸納、有常識(shí),對吧?人有6種到7種大的推理能力,在這個(gè)大模型當(dāng)中,這些推理能力不斷的被顯示出來。
第四是對齊⑨。前面三個(gè)可以說是基礎(chǔ)模型,這些模型能不能用不知道,OpenAI做這個(gè)已經(jīng)做了四年多,前三年在ChatGPT爆發(fā)之前,這些模型基本上都沒法用,主要是沒有對齊。今天對齊工程、對齊研究是最活躍的科研領(lǐng)域和最活躍的工程開發(fā)領(lǐng)域,對齊(有)幾個(gè)維度:第一,大模型、transformer里面都是Softmax⑩權(quán)重,都是代表了某種概率,怎么把它為我所用?它必須對齊,一種對齊是跟人的認(rèn)知空間對齊,比如說語言、代碼、表格等等,另外的對齊是跟人的價(jià)值觀對齊,對此,這是今天OpenAI最大的優(yōu)先級。Sam自己都說ChatGPT加上GPT4沒有對其好,在美國他得罪了所有人,所有的人都有足夠的理由去反對它在價(jià)值觀上還沒對齊好,但是這是一個(gè)時(shí)間問題,我們(將會(huì))有足夠的對齊的能力。
第五,引擎和模型體系在今天已有的硬件和軟件基礎(chǔ)之上,它能夠充分的用更多的有效算力(超級并行GPU),(雖然應(yīng)用)不理想,但是足夠可以把更多的算力用起來,一會(huì)我會(huì)跟大家拆解這些機(jī)會(huì)都在哪里。今天世界上可以用的算力越來越多,這個(gè)模型體系能夠把重要的模態(tài)語言、模態(tài)圖像、視頻,可以有效的Token化和把這些Token利用起來(第六)。今天訓(xùn)一個(gè)相對來講能力不錯(cuò)的大模型(需要)10億Token、20億Token,(后面)可以用的越來越多。
第七是:這個(gè)模型最終要改變世界還必須使用在不同場景,這個(gè)模型必須能夠小型化、能夠本地化,以后我們在每個(gè)手機(jī)端、IOT設(shè)備、車上都要使用這個(gè)模型,今天這個(gè)模型體系足夠有這樣的能力。
最后(第八)我們已經(jīng)有足夠的延伸模型能力,比如說讓這個(gè)模型可以接入符號(hào)求解器,把符號(hào)運(yùn)算能力接入進(jìn)去,可以用這個(gè)模型接入一個(gè)工具,學(xué)會(huì)這個(gè)工具是怎么用,它的可延伸性也足夠強(qiáng)。
如果我們把這個(gè)模型體系所有的能力加在一起,就是圖上藍(lán)底白字部分。這樣一個(gè)組合它的基礎(chǔ)足夠強(qiáng),因?yàn)?strong>Transformer是個(gè)通用的序列建模工具,不光是語言,任何其他模態(tài)都可以用Transformer來建模,它的可操縱性足夠強(qiáng)。今天零樣本的提示、少樣本的提示、場景內(nèi)學(xué)習(xí)是用的越來越多,大量的工具都在延伸,微調(diào)、調(diào)試,一會(huì)我會(huì)跟大家講調(diào)試最近幾周發(fā)展有多么兇猛。對齊前面講過了,今天如果你去美國一流的學(xué)校做PhD,可能都是做對齊的研究,做開發(fā)工程也是對齊的開發(fā)工程,所以對齊的能力也越來越強(qiáng)。最后是它的多維度的可擴(kuò)展性(涌現(xiàn)前面講過了)。如果我把它們加在一起,這個(gè)引擎是這個(gè)時(shí)代背后的中堅(jiān)力量,為什么模型的成本會(huì)從邊際向固定?就是靠這個(gè)引擎。
有了這個(gè)引擎之后,我們講下這個(gè)模型已經(jīng)開始在改變產(chǎn)業(yè),在用非常高的速度把邊際成本轉(zhuǎn)向固定成本。圖片中左上角(表明)ChatGPT加上GPT4今天所封裝的能力,它可以封裝世界上所有我們能夠得到的知識(shí),這是第一。第二,它封裝的學(xué)習(xí)能力、推理能力是一個(gè)斯坦福的高材生。第三,它可以學(xué)任何學(xué)習(xí),它考試一學(xué)就會(huì)。第四,它的界面是自然語言處理,任何人都能用。第五,今天做大模型的成本已經(jīng)不是除了大廠都不能做,而且成本在不斷的降低。所以今天我們這個(gè)引擎在核心維度顯然已經(jīng)過了拐點(diǎn),而且它在全方位的攀升,攀升的速度一定會(huì)加速,從第一性原理我們可以推演出它為什么一定會(huì)加速。所以左上角是講這個(gè)引擎已經(jīng)過了拐點(diǎn),在不斷的攀升。
圖片中左下角也非常重要,也是我最近幾個(gè)月認(rèn)知提高的一個(gè)點(diǎn)。因?yàn)槲易约鹤鲎匀徽Z言處理、搜索引擎正好過了20多年,我是2002年開始做搜索,以前我自己做操作系統(tǒng),自然語言處理(技術(shù))我們都做了很久,但是這一次自然語言處理(技術(shù))有幾個(gè)重要的跟同學(xué)們分享,前面講到OpenAI走的是一條反共識(shí)的路,它走向通用智能,跟別人想的都不一樣,為什么?四年前,大部分的團(tuán)隊(duì)都說要用人工智能建立通用智能,它的路會(huì)跟動(dòng)物世界一致的,動(dòng)物是從視覺智能開始的,視覺智能是先識(shí)別物體,(然后)物理操作,形成推理能力,再逐步形成符號(hào)標(biāo)記,符號(hào)標(biāo)記再逐步形成語言。OpenAI是倒過來做,它先從語言開始,沒有先從視覺智能開始,它堅(jiān)持走來這條路是這反共識(shí)的道路。因?yàn)檎Z言是一個(gè)非常特殊的潛認(rèn)知空間,它是人和物理世界最寬的一個(gè)橋梁。我的認(rèn)知之一是語言其實(shí)根本意義上它更是一個(gè)泛化和思考工具,溝通只是它的一個(gè)副產(chǎn)品。我們一開始以為語言主要是用來溝通的,NO,沒有語言我們沒法在這個(gè)世界上活。我們是一個(gè)零樣本泛化引擎,(大腦)這個(gè)東西是零樣本泛化的東西,有的時(shí)候一個(gè)樣本(也)可以泛化,語言給了我們超強(qiáng)的泛化能力,功耗很低的情況下我們可以做泛化,這是最最關(guān)鍵的,語言最根本給我們帶來的是零樣本、少樣本的泛化能力。當(dāng)然,我們也用語言作為我們溝通的一個(gè)機(jī)制。關(guān)于自然語言處理大家做了很多,以前自然語言對話都很多,今天復(fù)盤一下,我過去也一直在思考這個(gè)問題,也有過這個(gè)想法,但今天想的更清楚了,過去的自然語言處理這個(gè)領(lǐng)域基本上把問題定義弄錯(cuò)了,根本就不對,為什么呢?以前自然語言處理是說我可以寫軟件,你給我一句話,我能夠做處理,能夠理解這句話,這為什么是錯(cuò)的?因?yàn)橐斫膺@句話,你先要有知識(shí)才行,比方說我把這句話分析出來我都能分析,這是形容詞、這是動(dòng)詞、這是名詞,但關(guān)鍵是這個(gè)名詞到底是什么,它是一包香煙、是個(gè)加油站、是你舅舅,還是個(gè)電影里面的演員,你需要全球的知識(shí)才能做自然語言處理。而這一次OpenAI是倒過來的,先用知識(shí)這個(gè)引擎去針對語言對話去做調(diào)試,它自然語言處理是這樣做的,不是先理解這句話,然后把知識(shí)拉進(jìn)來,我們過去十幾年所做的基本上都反了。這一次自然語言徹底走通了,因?yàn)榇蠹叶加眠^ChatGPT。過去用自然語言交互很難,都怕它聽不懂,稍微換一換(詞)它就不對了,這一次你基本上隨便講它都能懂,因?yàn)槭裁??它有一大堆知識(shí)都封裝在里面,是用了知識(shí)作為基礎(chǔ),(然后)根據(jù)對話來調(diào),而不是倒過來做。所以這一次自然語言所起的作用是非常非常核心的,在這個(gè)范式攀升的過程當(dāng)中它也將扮演一個(gè)重要的角色(一會(huì)我會(huì)講),因?yàn)?strong>我們?nèi)祟悮v史上從來沒有這么有效、這么有用、任何場景下都能用的一個(gè)交互工具。今天我們用的最多的是手指觸屏,這個(gè)(新的自然語言處理方式)比手指觸屏要強(qiáng)大的多得多。
左下角(講的是)這個(gè)引擎給我們帶來的前所未有的能力,右上角講這個(gè)引擎如何將持續(xù)的把這個(gè)范式往前推,這個(gè)引擎進(jìn)一步往前走,它需要新的技術(shù)、新的科研結(jié)果、新的工程化、新的資源,我們或多或少都能看得見。我們跟微軟的人聊,跟OpenAI的人聊,或多或他們都知道,因?yàn)閣e know what's going on,? we know what it takes。大家看一下我這里列出來的,首先,在模型上有大量的工作要做。今天這個(gè)模型是魯棒性?的,穩(wěn)定性不夠。第二Transformer像探密一樣的一個(gè)模型,它不光是算力要求高,對帶寬?要求更是無窮高,你把幾萬張卡放在一起,它沒法計(jì)算,模型必須系數(shù)化。今天Transformer的注意力,包括它的提示buffer?,OpenAI最近推出的GPT可能做到32K,但是我看昨天有個(gè)開源的可以做到64K,這個(gè)注意力要拓寬、要做循環(huán)。這些研發(fā)科研都在做,同時(shí)模型更強(qiáng)的能力涌現(xiàn)大量的研究,潛概念、子概念泛化,甚至于符號(hào)、神經(jīng)融為一體的計(jì)算能力,包括因果推理等等,大量可見的科研和可見的研發(fā)都在進(jìn)行。
下一個(gè),前面講過了的對齊,尤其是價(jià)值觀對齊,這是OpenAI在美國最大的優(yōu)先級,有大量的工作在往前走。還有是模態(tài),跨模態(tài)非常非常重要,因?yàn)槿俗鳛橐粋€(gè)通用智能載體,我們是多模態(tài)并且是跨模態(tài)的,我們在視覺這個(gè)模態(tài)泛化出來東西可以回到語言,語言泛化的東西可以返回來, GPT4發(fā)布時(shí)沒看到相關(guān)論文講這個(gè)有點(diǎn)遺憾。但相信GPT5.6以后會(huì)有跨模態(tài)的泛化能力。當(dāng)然,更多的領(lǐng)域、更多的延展性、覆蓋更多的應(yīng)用、更多的基礎(chǔ)設(shè)施都在高速進(jìn)行,這個(gè)引擎的能力將越來越強(qiáng)。
最后右下角這個(gè)引擎的飛輪產(chǎn)生的用戶價(jià)值、商業(yè)價(jià)值已經(jīng)形成一個(gè)雛形,在不斷的高速的旋轉(zhuǎn),大量的資本投入進(jìn)來,一會(huì)我跟同學(xué)們分享:資本投入、簡單的商業(yè)模式、盈利機(jī)會(huì)、基礎(chǔ)設(shè)施、平臺(tái)應(yīng)用、創(chuàng)業(yè)公司、大廠不斷被驗(yàn)證的效益,同時(shí)對社會(huì)帶來的影響、安全等等,也在積極主動(dòng)的被社會(huì)的相關(guān)的企業(yè)去共同解決。
(圖上內(nèi)容)加在一起,我們這個(gè)范式將由這個(gè)引擎不斷的高速的往前驅(qū)動(dòng)。
1.6、演化路徑


這頁,這是我講范式的最后一頁。范式的變化,它是思考的變化,它是實(shí)踐體系的變化。我們都知道,未來將是模型無處不在,怎么從今天走到未來呢?這一頁是非常非常重要,因?yàn)榇竽P烷_啟了一個(gè)新的人類技術(shù)發(fā)展的新的篇章。在人類技術(shù)世界當(dāng)中,我們引入了一個(gè)全新的物種,過去沒有過,接下來我們做的都是模型,以后每次開會(huì)我可能帶了50個(gè)模型,你可能給我200個(gè)模型,我們都是模型,模型是新物種。這個(gè)新物種它怎么從今天走到未來?根本意義上是進(jìn)化。這里跟同學(xué)們提一點(diǎn),美國復(fù)雜學(xué)一位作者寫的比較多:布萊恩·阿瑟,推薦給大家他寫的一本書,非常重要,叫《技術(shù)的本質(zhì)》,技術(shù)在根本意義上它是進(jìn)化的,它跟達(dá)爾文進(jìn)化非常類似,它永遠(yuǎn)是結(jié)構(gòu)、功能、組合、選擇,達(dá)文進(jìn)化是選擇跟自然環(huán)境相匹配,技術(shù)的進(jìn)化選擇的是人類需求更多的地方,所以大模型的未來將是一個(gè)進(jìn)化的未來,那進(jìn)化怎么走?它有一系列的核心結(jié)構(gòu),每個(gè)物種它都有核心結(jié)構(gòu),這個(gè)物種叫大模型,它有基礎(chǔ)模型。前面講有很多其他基礎(chǔ)模型不同的模態(tài),比如說蛋白、核酸這一層的,空間這一層的,不一定要語言,自然語言對我們?nèi)藖碇v非常好、泛化能力很強(qiáng),(以后)會(huì)在大模型基礎(chǔ)上演化出更多事情的模型:領(lǐng)域模型、工作模型、更多人的模型,它將都有記憶、推理等等越來越強(qiáng)的能力。
在這里有一點(diǎn)要跟同學(xué)們提出來的,這也是我自己思考比較多的,系統(tǒng)一和系統(tǒng)二,今天大模型當(dāng)中所做的推演、推理基本上以系統(tǒng)一為主。人是兩種思考方式,系統(tǒng)一是快速思考,就是直覺,大部分情況下我們其實(shí)不是認(rèn)真去用邏輯分析的,只有大問題的時(shí)候我們才用邏輯去分析,我們基本上都是靠直覺,開車是靠直覺,基本上很多地方都是靠直覺。大部分都是系統(tǒng)一,它的好處是什么?它是過程性的,它根本上是可計(jì)算,它是基于場景的,它可以用來解決我們生活當(dāng)中方方面面所有的問題,這些都可以用系統(tǒng)一的模型來做。今天用大模型為基礎(chǔ)來學(xué)出來的模型,都是展現(xiàn)了很多系統(tǒng)一的功能,系統(tǒng)二還早,有一部分在逐步逐步的被挖掘出來。人也建了很多模型,愛因斯坦理論是個(gè)模型、牛頓理論是個(gè)模型,有大量的模型,人建的模型都是系統(tǒng)二的模型為主,都是符號(hào)、數(shù)學(xué)公式、結(jié)構(gòu)、知識(shí)圖譜,它的強(qiáng)處是它很專業(yè),在專業(yè)里它的泛化能力很強(qiáng),但它弱的地方是今天能所做的模型跟我們生活方方面面幾乎沒有任何作用。我們現(xiàn)在所有的物理理論、化學(xué)理等等,沒法解釋這棵樹的葉子形狀為什么是這樣的,這個(gè)貓的顏色為什么這樣的,它都沒有任何用處,它不是這種模型(大模型),(雖然)它有它的好處。這兩種模型之間的組合是我們需要的,所以我們看到的發(fā)展趨勢是,將有越來越多的融合和整合、系統(tǒng)一和系統(tǒng)二,在針對適當(dāng)場景之下形成新的組合模型,能夠更有效的解決問題。

然后大家可以看一下這張圖,畫的是模型進(jìn)化,這個(gè)把Meta模型畫的比較重一點(diǎn)就是,但是可見這個(gè)進(jìn)化已經(jīng)發(fā)生,一代一代的模型都長出來了,今天毫無疑問是處在寒武紀(jì)時(shí)代,新物種剛剛到來,有一大堆子物種,幾乎每天都有新的子物種在發(fā)生。如果大家關(guān)注論文、關(guān)注GitHub、關(guān)注Hugging Face這些的話,看上面的內(nèi)容,我們毫無疑問是處在寒武紀(jì)時(shí)代,每天新的演化出來的模型、新的子物種實(shí)在是太多了。
總結(jié)一下,在今天這個(gè)全新的范式如何從今天走到未來,我們將高度重視大模型和大模型衍生出來的子模型,它們的進(jìn)化過程。這里最后想講一下,今天這個(gè)模型生態(tài),某種意義上跟我們已經(jīng)有的生命體系很類似,大模型基本上跟基因一樣,大模型上衍生出來的領(lǐng)域模型,某種意義上是epigenetics(遺傳學(xué)),是表觀,最終都是進(jìn)化,真正意義上的智能體系,它在結(jié)構(gòu)上都類似。
2、新時(shí)代

我們剛才的分享,把新的范式、它的內(nèi)在結(jié)構(gòu)、這個(gè)范式的發(fā)展體系這個(gè)范式、它所需要的核心思考維度,我們都給大家分享了,接下來講這個(gè)范式所帶來的新的時(shí)代將怎么發(fā)展。
2.1、宏觀發(fā)展格局


在這個(gè)時(shí)代,我們首先最關(guān)注社會(huì)經(jīng)濟(jì)發(fā)展,它的發(fā)展格局將是這樣(上圖),在全球范圍將是這樣一個(gè)格局,因?yàn)橛蛇@個(gè)范式它的內(nèi)在結(jié)構(gòu)所決定的。
左上角它的發(fā)展速度和動(dòng)力將是空前的,這個(gè)大家想一想基本上都能分析出來,因?yàn)檫@一次它所改變的生產(chǎn)力叫知識(shí),知識(shí)的力量是無窮的,它是最強(qiáng)的一種生產(chǎn)力。它改變的緯度是:第一,這個(gè)生產(chǎn)力變得便宜了,對吧?我今天都付很多工資,“碼農(nóng)”的工資很高,律師的工資很高,醫(yī)生的工資很高,都是模型代價(jià)很高,邊際成本很高,這些模型以后會(huì)變得越來越便宜。第二,這個(gè)生產(chǎn)力在核心的維度(能力會(huì)提升),尤其是模型密集的產(chǎn)業(yè)、知識(shí)密集的產(chǎn)業(yè),比如說醫(yī)療,醫(yī)療是典型的知識(shí)密集產(chǎn)業(yè),一個(gè)好的醫(yī)生就是一組好的模型、一個(gè)有經(jīng)驗(yàn)的護(hù)士就是一組好的模型,用大模型的技術(shù)可以有更好的醫(yī)生、更好的護(hù)士、每個(gè)醫(yī)生都有助手等等等等。這個(gè)產(chǎn)業(yè)的生產(chǎn)力將提升,不光是成本降低,能力將提升??茖W(xué)也一樣,對于模型敏感、模型驅(qū)動(dòng)這些產(chǎn)業(yè),這生產(chǎn)力將被放大,不光是成本降低。第三,模型的研發(fā)速度會(huì)加快,這個(gè)生產(chǎn)力的迭代速度、創(chuàng)新速度將會(huì)加快。如果我們把這個(gè)三個(gè)加在一起,大家想一想這個(gè)攀升速度能不快嗎?我跟同學(xué)們可以分享一下,(范式發(fā)生)已經(jīng)接近一年了,11個(gè)月左右,大概在三個(gè)月、四個(gè)月回美國之前,我還跟同學(xué)們說,這次給我感覺像95年、96年時(shí),每天需要看的東西那么多,每天都覺得在變,但這次要比95年、96年快多了。我們從一個(gè)多月之前開始做大模型日報(bào),有的同學(xué)說這實(shí)在跟不上,即使有了大模型日報(bào)還是跟不上。大家想想,這個(gè)生產(chǎn)力以(指數(shù)級)維度在被改變,攀升速度能不快嗎,它一定是非常強(qiáng)勁的、高速的往前走,這是左上角第一塊,產(chǎn)業(yè)發(fā)展的格局、經(jīng)濟(jì)發(fā)展的格局。
左下角,它的格局將影響我們?nèi)祟惖拿恳粋€(gè)職業(yè)種類,因?yàn)槲覀兠總€(gè)職業(yè)種類到目前為止都是模型的組合。從這角度來講,我們預(yù)測很快將發(fā)生的事是:我們每個(gè)人都將開始用副駕駛員(copilot),不只是用一個(gè)副駕駛員,還有好幾個(gè)副駕駛員,等著這副駕駛員能力越來越強(qiáng),它變成正駕駛員(Autopilot)。再往下走,我們每個(gè)人都將有一個(gè)Pilot team(駕駛團(tuán)隊(duì)),一組副駕駛員都要跟著我們走,以后我們每個(gè)人類社會(huì)的企業(yè)組織,都將是人和人之間的合作,你可以帶著你的Copilot Autopilot、你的teampilot一起去合作,有新的職能也會(huì)出來。大家可能看到高盛的預(yù)估,OpenAI自己的做的科研,自己做的研究,毫無疑問,這個(gè)經(jīng)濟(jì)發(fā)展的格局將影響到我們每一個(gè)人的每一個(gè)工作崗位。
當(dāng)中上面當(dāng)中這一塊,這一次變革從經(jīng)濟(jì)發(fā)展角度來講,走在前沿的毫無疑問是下一代的數(shù)字化的產(chǎn)業(yè)。數(shù)字化是人的延伸,它開拓新的商業(yè)價(jià)值一定是先從數(shù)字化產(chǎn)業(yè)開始,整個(gè)數(shù)字化產(chǎn)業(yè)將全面的提高和更新,我們將有新的核心技術(shù)堆棧、新的平臺(tái)、新的基礎(chǔ)設(shè)施、新的算力體系、新的通訊體系、新的產(chǎn)品開發(fā)體系,一切都將是以大模型時(shí)代為主。后面我會(huì)跟同學(xué)們分享大模型時(shí)代的產(chǎn)品怎么開發(fā),技術(shù)體系怎么搭建、商業(yè)壁壘怎么去尋找等等。但數(shù)字化產(chǎn)業(yè)一定是高速進(jìn)入下一個(gè)階段,速度一定會(huì)加快。
下面這一塊是它將影響所有的行業(yè),每個(gè)行業(yè)都將是系統(tǒng)性的、結(jié)構(gòu)性的遷移到未來的一個(gè)狀態(tài),它是一個(gè)結(jié)構(gòu)性的重組,因?yàn)槟P途褪侵R(shí)從邊際成本移向固定成本。大家可以看一下,如果你是一家公司CEO,你先看一下你今天的模型花了多少錢? R&D,這是美國標(biāo)準(zhǔn)的accounting,Sales&Marketing,G&A,就看看你每個(gè)月付多少工資,未來你需要付多少錢,尤其是你這個(gè)方面開出很多的。還有,今天用GPT是Infra,假定說一個(gè)“碼農(nóng)”1小時(shí)1000美元,用GPT4今天用的系統(tǒng)可能1小時(shí)10美元,3年之后1美元不到,5年之后幾美分,就看看這個(gè)產(chǎn)業(yè)怎么變。還有,有些行業(yè)它的供需將提高,比如說我們判斷對軟件的需求將大大增加,因?yàn)榻裉燔浖男枨笫潜弧按a農(nóng)”供給不足而影響的,我們可以想象一下,用大模型技術(shù)能夠把今天“碼農(nóng)”產(chǎn)出提升多少倍,把一個(gè)設(shè)計(jì)師的產(chǎn)出提升多少倍?把一個(gè)分析師的產(chǎn)出提升多少倍?把一個(gè)醫(yī)生的產(chǎn)出提升多少倍?最后根據(jù)每個(gè)不同的產(chǎn)業(yè),按照剛才講的這個(gè)結(jié)構(gòu),我們大家都可以預(yù)算一下未來每個(gè)行業(yè)它結(jié)構(gòu)性的變更將從哪個(gè)方向發(fā)展?以什么樣的速度來發(fā)展?
右邊,政府的參與將更多、更活躍,監(jiān)管、安全、數(shù)據(jù)隱私、社會(huì)穩(wěn)定,這一次大家就看出來了。OpenAI在美國、在歐盟,歷史上沒有過政府那么早就出臺(tái)了,說我得參與。OpenAI的董事會(huì)大概在五周、六周之前變更,兩個(gè)新的董事都是代表美國政府的,因?yàn)檫@個(gè)范式的變更本質(zhì)上是需要社會(huì)產(chǎn)業(yè)跟政府做更多的互動(dòng),尤其是早期,扶持和引導(dǎo)基礎(chǔ)設(shè)施投入全球性的發(fā)展,這次發(fā)展的格局政府一定會(huì)更早參與,更多維度參與。
最后,市場和社會(huì)的長期影響。首先是教育,因?yàn)?strong>人類社會(huì)最終最最最根源的生產(chǎn)是人,人口的數(shù)量和人口的質(zhì)量。教育是被根本性的影響了,另外,除了教育之外、人力資本之外,最最重要的生產(chǎn)資源:科研、科學(xué),它將根本意義上被改變和加速。社會(huì)的結(jié)構(gòu)、信息和知識(shí)的傳播,這里我想講信息的傳播,政府監(jiān)管的重要性。所以這一次的產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展格局,它的核心維度將是由這些來驅(qū)動(dòng)。
2.2、中國機(jī)會(huì)


我們看一下中國的發(fā)展機(jī)會(huì),這個(gè)對我們今天在座和線上的同學(xué)們尤其重要,我們都在參與。首先,這個(gè)大模型時(shí)代,能夠真正做大模型的只有北美和中國,我在深圳演講的時(shí)候跟同學(xué)們也分享了。前幾個(gè)禮拜英國首相開會(huì)議討論大模型,德國總理開會(huì)議討論大模型,但核心討論完了之后怎么辦呢?如果要做,只有這兩個(gè)領(lǐng)域能做。(中國)全球唯二,長期機(jī)會(huì)非常非常大,但今天我們必須要奮起直追,要追的話有哪些核心維度我都寫出來了。首先你要做個(gè)基礎(chǔ)模型,今天要做的就是要追到3.5,GPT3.5是分水嶺,別的說實(shí)話什么都不重要,誰先到3.5誰就在不同的檔次。我們判斷,中國追的第一梯隊(duì)很快會(huì)形成,是第一波進(jìn)入3.5的狀態(tài)的,到了3.5你自然可以很快到4,3.5是關(guān)鍵節(jié)點(diǎn)。這里要做的是模型的開發(fā)、核心的算力、訓(xùn)練的語料、訓(xùn)練的數(shù)據(jù)。前面講的5萬多條指令條,一個(gè)評估體系,做過搜索引擎、做過模型的人都知道評估體系多重要,(如果沒有)你不知道怎么評估、怎么去開發(fā)這個(gè)東西?;A(chǔ)設(shè)施、網(wǎng)絡(luò)計(jì)算,因?yàn)檫@次需要的是不同的算力,不同算力之間的組合。搶先進(jìn)入第一梯隊(duì)的核心是能夠持續(xù)每天、每周不斷的朝著3.5走,是能夠有機(jī)會(huì)進(jìn)入中國第一梯隊(duì)的。這是我們最關(guān)注的點(diǎn),能不能持續(xù)攀升到3.5,剛才講這些能力有沒有?前面這些能力有,你就有可能攀到3.5。進(jìn)入3.5之后,關(guān)鍵還是要開發(fā)產(chǎn)業(yè),那必須做調(diào)試,指令調(diào),你的數(shù)據(jù)系統(tǒng)跟代碼對齊,這個(gè)一定要做的,不然的話這個(gè)模型邏輯能力不夠強(qiáng),因?yàn)榇a是人類設(shè)計(jì)出來邏輯為主的一個(gè)語言。對齊的研發(fā)、價(jià)值觀、安全等等。這個(gè)基礎(chǔ)模型產(chǎn)業(yè)化的基礎(chǔ),同時(shí)也要做平臺(tái)的研發(fā),PlugIn、API,自然語言交互的對齊,從3.5進(jìn)入到ChatGPT,這是占據(jù)產(chǎn)業(yè)制高點(diǎn)的關(guān)鍵所在。所以今天中國奮起直追,第一是攀升3.5,第二在攀升3.5的同時(shí)要打造產(chǎn)業(yè)化的能力,尤其是模型調(diào)、指令調(diào)和對齊的能力,一旦你有足夠的對齊能力,你就可以跟對話對齊,API這些東西相對來講還比較容易,你搭建起來你就可以成為未來的平臺(tái)和生態(tài)的制高點(diǎn)。這是中國追的核心要素。
當(dāng)中上面這一塊(講的是)在追的過程當(dāng)中,在中國產(chǎn)業(yè)發(fā)展當(dāng)中,算力非常非常關(guān)鍵,我們可以在這里延伸展開講一下。今天在大模型時(shí)代我們已經(jīng)看到了,未來一個(gè)大的國家地區(qū),它的經(jīng)濟(jì)發(fā)展的水平,就看這個(gè)國家核心算力有多強(qiáng),做算力的同學(xué)一定要考慮這一點(diǎn),未來看你這個(gè)國家的經(jīng)濟(jì)發(fā)展檔次,就看你核心有效算力有多少。在今天追趕的過程當(dāng)中,算力是非常非常關(guān)鍵,中國大概有十家左右在追,想要攀升3.5,必須要有持續(xù)的、足夠的算力資源。我們預(yù)估中國大約有20萬張A100的卡,美國的頭部團(tuán)隊(duì)一般要用1萬張H100,一個(gè)美國的頭部團(tuán)隊(duì)可能用中國的一半的算力,而且我們面臨這個(gè)國際環(huán)境(不好),所以這里既有挑戰(zhàn)又有機(jī)會(huì)。算力是中國發(fā)展非常重要的一環(huán)。我們得努力找到一條發(fā)展的路徑。
上面第三塊,產(chǎn)業(yè)的發(fā)展齊頭并進(jìn),在大模型猛追的同時(shí),產(chǎn)業(yè)發(fā)展也開始起來了。首先講一下大廠,因?yàn)檫@次已經(jīng)有了OpenAI給我們指路,大廠在追的過程當(dāng)中是有優(yōu)勢的,顯然有優(yōu)勢,百度、阿里、騰訊等等,主動(dòng)的追,或多或少都能figure out。創(chuàng)業(yè)公司如果有資本長期投入,我們會(huì)更看好,因?yàn)樾碌姆妒叫枰碌乃悸?、新的做事方法,一旦追上之后,?chuàng)業(yè)公司、小的團(tuán)隊(duì)更靈活,更能夠探索出新的(東西),需要不同的思路、不同的執(zhí)行體系來探索出商業(yè)化的機(jī)會(huì)。
第三,提供和配置核心資源,算力剛才講過,數(shù)據(jù)、人才都是高速發(fā)展的新的機(jī)會(huì)。即使在奇績我們也做了很多cofounder match(共創(chuàng)匹配),YC在美國也一直在做cofounder match,對人才的要求需求越來越高,一會(huì)我會(huì)具體講基礎(chǔ)設(shè)施的機(jī)會(huì),中國的創(chuàng)業(yè)公司既有中國的機(jī)會(huì),也有國外的機(jī)會(huì)。全方位的應(yīng)用開發(fā),早期已經(jīng)開始非常活躍,覆蓋面已經(jīng)越來越廣,因?yàn)橹袊约旱拇竽P瓦€沒有追到前面講到的狀態(tài),目前以開源和國外的大模型為主。
左下角是基于我們奇績創(chuàng)業(yè)者社區(qū),我們做的一個(gè)調(diào)研,我們奇績社區(qū)里面有很多同學(xué)已經(jīng)積極在做大模型的應(yīng)用,這里面有77%是使用OpenAI的接口的,大家看一下這些數(shù)據(jù),GPT4占21%,GPT3.5占46%等等,這是早期的狀態(tài)。
再下一個(gè)是在中國發(fā)展機(jī)會(huì)當(dāng)中,國家的引導(dǎo)、整體布局、基礎(chǔ)設(shè)施、引導(dǎo)扶持,尤其是在中國集中力量辦大事,因?yàn)檫@一次它需要大量投入固定成本,在有些產(chǎn)業(yè),比如說醫(yī)療等等,我們判斷中國的發(fā)展機(jī)會(huì)更多,政府能夠做得更多。監(jiān)管治理等一系列大量的工作,國家會(huì)參與。最后,社會(huì)影響跟國外一樣,教育非常非常重要,過去在全球競爭格局當(dāng)中,中國一直被認(rèn)為有一個(gè)優(yōu)勢是中國的學(xué)生體量大,中國“碼農(nóng)”多,中國學(xué)科學(xué)的人多,但是有了大模型之后,這個(gè)局面被改變了,給我們帶來了挑戰(zhàn),但永遠(yuǎn)是機(jī)會(huì),挑戰(zhàn)的另一面就是機(jī)會(huì),中國未來的教育怎么走?未來的科研我們有新的機(jī)會(huì),第四范式、第五范式是數(shù)據(jù)和計(jì)算驅(qū)動(dòng)的,產(chǎn)學(xué)研在中國可以有新的重新組合的機(jī)會(huì)。最后,文明與文化,它畢竟跟語言有關(guān),大模型跟每個(gè)國家,尤其是文明驅(qū)動(dòng)的國家,跟我們的底蘊(yùn)有關(guān),這次(機(jī)會(huì))掌握好,對我們文明驅(qū)動(dòng)這樣一個(gè)國度,長期的價(jià)值是非常非常深遠(yuǎn)的,所以這是在中國發(fā)展機(jī)會(huì)的總結(jié)。
2.3、OpenAI生態(tài)快速形成


接下來講一下這個(gè)產(chǎn)業(yè)的生態(tài),它已經(jīng)高速在形成,這張圖我們已經(jīng)看到這個(gè)生態(tài)的結(jié)構(gòu)的形成,OpenAI,一會(huì)我會(huì)有幾頁講OpenAI的生態(tài)結(jié)構(gòu),因?yàn)樗撬F(xiàn)在領(lǐng)先不少。這個(gè)生態(tài)結(jié)構(gòu)跟過去我們看到的IT生態(tài)結(jié)構(gòu)非常類似,它的后臺(tái)、它的平臺(tái),兩個(gè)平臺(tái),后臺(tái)就是GPT,今天是GPT4,但這個(gè)GPT是給第三方應(yīng)用開發(fā)的,基于大模型的新的模型的,大家可以看到圖中有Foundry(代工廠)下面的算力,上面有PlayGround(游樂場)讓你去做開發(fā)試驗(yàn)用的。再上面是API?,有簡單的付費(fèi)模式,已經(jīng)有大量的基于API的后臺(tái)開發(fā)出了新的模型,同時(shí)OpenAI的生態(tài)又有前臺(tái),前臺(tái)是ChatGPT。前面講過,人類歷上從來沒有過自然語言交互的一個(gè)界面,任何東西都可以跟它做交互。同時(shí)ChatGPT也做了一個(gè)平臺(tái)的可延伸界面,就是ChatGPT PlugIn,它自己帶了幾個(gè)PlugIn,像cold explorer等等,已經(jīng)有大量的可以開發(fā)的PlugIn的應(yīng)用在這個(gè)上面。在OpenAI的前臺(tái)和后臺(tái)基礎(chǔ)之上,每天都有大量的應(yīng)用在被開發(fā),同時(shí)OpenAI自己也有一個(gè)完整的生態(tài)的布局,通過投資,通過它跟YC的關(guān)系,完整的、高效的驅(qū)動(dòng)它的整個(gè)生產(chǎn)的外圍。如果你一定要去OpenAI,他完全可以跟你講生態(tài)是他們最高的優(yōu)先級,生態(tài)的健康的成長是這個(gè)時(shí)候最最關(guān)鍵的。
2.4、開發(fā)堆棧雛形高速發(fā)展


(上圖)這個(gè)可能是今天我跟大家分享最為重要的一個(gè),也是我自己最關(guān)注的一個(gè)地方。數(shù)字化產(chǎn)業(yè)進(jìn)入到下一代將影響所有的產(chǎn)業(yè),永遠(yuǎn)是得開發(fā)者得天下,開發(fā)者的界面、開發(fā)者的生態(tài),永遠(yuǎn)是最最重要的兵家必爭之地。這個(gè)OpenAI知道、微軟知道,歷史上了解數(shù)字化產(chǎn)業(yè)的人都知道,最為關(guān)鍵的、所有的一切的一切是開發(fā)者生態(tài)。開發(fā)者體系怎么形成,尤其是在今天早期,發(fā)展速度這么快,包括開源的。
我跟他同學(xué)們分享一下,左邊的模型開發(fā)。首先講一下基礎(chǔ)模型開發(fā),這方面沒有生意可做,因?yàn)槎际谴髲S的自研的,但是它很重要,基礎(chǔ)模型開發(fā)要有一系列的章節(jié),形成一套路數(shù)。中國要追大模型必須知道怎么追,基礎(chǔ)模型開發(fā)基本上是有這么幾個(gè)重要的關(guān)鍵環(huán)節(jié):第一,你必須要有數(shù)據(jù)體系?。做過搜索引擎的都知道數(shù)據(jù)體系的重要性,它比其他都重要,最終(形成)數(shù)據(jù)系統(tǒng),數(shù)據(jù)集、語料、標(biāo)注系統(tǒng)、標(biāo)注工具、數(shù)據(jù)開發(fā)管線?加在一起決定了你開發(fā)大模型的總體的檔次和能力。第二,模型體系?。說實(shí)話,大家都可以看paper,但是(還需要)有很多經(jīng)驗(yàn),這里面主要是參數(shù)、深度、模態(tài)、Token?。第三,集群體系?,算力資源怎么組合在一起?尤其是你有幾萬張卡放在一起,你不需RDMA?,就是直接訪問內(nèi)存,在大模型時(shí)代,計(jì)算機(jī)服務(wù)器這個(gè)概念很快就會(huì)沒有,因?yàn)槲覀儾恍枰?wù)器這個(gè)東西,我們需要的是幾萬張卡在一起,那每張卡和卡之間它必須直接訪問內(nèi)存,才能有效做訓(xùn)練和推理。同時(shí),這些卡怎么連在一起,兩種做法:一種是HPC很貴,英偉達(dá)(NVLink InfiniBand)沒法做到幾萬張卡,一兩萬張頂多了,下一代一定是以太網(wǎng)。那高速連接的以太網(wǎng)怎么做?這些都是壁壘,要訓(xùn)練大模型這些東西都要有。(第四)另外還得有個(gè)訓(xùn)練體系?,指令調(diào)、正則化、Epoch(通用圖表庫)?等怎么訓(xùn)?訓(xùn)練多長時(shí)間?損失函數(shù)怎么把它降下來?你的對齊體系怎么跟自然語言對齊?怎么跟代碼對齊?怎么有了安全和價(jià)值觀?安全體系尤其重要,大家有沒有看過GPT4的release note(版本說明)。OpenAI有個(gè)紅色團(tuán)隊(duì),OpenAI的模型一上線壞人就來用,壞人問的第一問題就是我有100美元,我想殺100個(gè)人,告訴我怎么殺?你怎么做呢?安全有多重要啊,因?yàn)檫@是一個(gè)超級的力量,壞人肯定會(huì)用的,所以你要開發(fā)大模型,你必須要有足夠的對齊安全的能力。(第五)評估體系前面講了,是你的基礎(chǔ)。
最后(這些體系)加在一起是一個(gè)系統(tǒng)化的工程體系。你說給你多少錢?你需要什么樣的性能?你這個(gè)大模型要達(dá)到什么樣的指數(shù)?你做哪幾個(gè)維度的優(yōu)化?你都可以把它拆解出來,這個(gè)時(shí)候你開發(fā)大模型是進(jìn)入一個(gè)持續(xù)迭代進(jìn)展的狀態(tài)。過去我已經(jīng)做了20多年的搜索引擎,這個(gè)行業(yè)里谷歌基本上把這套摸索透了,就是你要多大的搜索引擎?我廣告收入有多少?我需要多少文檔?我需要多少延時(shí)?我可以系統(tǒng)性的拆解我的技術(shù)。今天能做的或多或少是OpenAI加上微軟,(還有)谷歌內(nèi)部的一部分,但是這是我們這個(gè)產(chǎn)業(yè)都要關(guān)注的,知道大模型怎么做,大模型它的路數(shù)是怎么做的。
大模型之后是做垂直模型、領(lǐng)域模型,就是基于已有的大模型。我們有幾種方法做知識(shí)蒸餾?或者是調(diào)試微調(diào),或者是提示,最近幾周最紅的就是所謂叫PEFT,就是參數(shù)有效的微調(diào),像LoRa就是。尤其是開源世界,大家都在做參數(shù)有效的微調(diào),少數(shù)GPU,足夠的Token就可以微調(diào)一個(gè)相當(dāng)不錯(cuò)的模型。這里面數(shù)據(jù)集的增加,包括linguistic的數(shù)據(jù),包括知識(shí)圖譜的數(shù)據(jù)。
有大量的、新一代的API和服務(wù)公司,Hugging Face非常非常優(yōu)秀,Lamini是一個(gè)斯坦福的一個(gè)PhD做的一個(gè)新的公司,這里值得我們每個(gè)人關(guān)注,因?yàn)槲覀円_發(fā)領(lǐng)域模型,都或多或少用新開發(fā)方法。
同時(shí),多模態(tài),尤其是像Midjourney生成二維圖像、生成視頻、生成游戲資產(chǎn)的,都是在做多模態(tài),都是目前為止以擴(kuò)散模型為主的,Stability走的稍微靠前一點(diǎn),我們用的工具比較多的是LoRa ControlNet等一系列的方法,但都還在早期。有大量的工作要做,要形成一定穩(wěn)定的持續(xù)攀升的狀態(tài),有大量的工具公司進(jìn)來,那我們的產(chǎn)能會(huì)提高。
領(lǐng)域模型也有激動(dòng)人心的進(jìn)展,尤其是在參數(shù)優(yōu)越的微調(diào),最近幾周進(jìn)展非??欤_源大模型好多,一大波長出來,都是說幾乎每天都有。
再下來就是輕模型。要做到端上可以用,知識(shí)蒸餾或者是數(shù)據(jù)蒸餾、結(jié)構(gòu)優(yōu)化、量化變小等,有大量的研發(fā)工作,因?yàn)殚L期我們一定要把這些大模型用到端上才行。
最后,我們最關(guān)注的開源,開源是把整個(gè)創(chuàng)新門檻降低的關(guān)鍵。開源體系做了很多很多,這里最活躍的,簡單提一下就是LLaMa體系,是Meta出來的,它有一個(gè)LLaMa Adaptor,長出了一大堆、衍生出來一大堆小的模型,高度活躍。同時(shí)Databrick Cerebas Mosaic Al,有幾位同學(xué)我過去都挺熟悉的,非常高興看到有很多活躍的、有志向、有勇氣的創(chuàng)業(yè)者在探索開源的模型。開源數(shù)據(jù)非常非常重要,語料,同學(xué)們一定要關(guān)注一下,英語某種意義上是人類歷史上第一個(gè)真正的全球語言,我們要有一個(gè)語言模型,你起步還得有大量的英語的語料,Common Crawl(一種語料庫)、wikipedia(一種數(shù)據(jù)集)、書、文章、數(shù)據(jù)等等,這些越多越好。所以綜合在一起,在模型開發(fā)這一端,我們還在早期,需要有大量的進(jìn)展,大模型也好,領(lǐng)域模型也好,邊緣模型也好,開源模型也好。
同時(shí)開發(fā)應(yīng)用這個(gè)更關(guān)鍵了,工具箱和工具鏈、基礎(chǔ)開發(fā)的、代碼的、工作流的、代理、機(jī)制、提示、調(diào)試、記憶、embedding(嵌入)。最近大家關(guān)注的話,融錢都來不及融,太多了,每天都有創(chuàng)業(yè)公司出來,因?yàn)橛写罅康膽?yīng)用要被開發(fā),這是基礎(chǔ)開發(fā),用代碼語言開發(fā)或者基礎(chǔ)設(shè)施。
(應(yīng)用開發(fā))右邊的我把它叫做拓展開發(fā)能力,用自然語言寫代碼,這個(gè)更為重要。我相信很多同學(xué)每天都在試,像我們這樣每天都在試不同的提示,因?yàn)槲覀兛梢杂米匀徽Z言自己形成一個(gè)抽象的層次,它的知識(shí)結(jié)構(gòu),我需要它做什么樣的推理?人大概有六種七種推理方法,推理好了以后我希望它做什么樣的規(guī)劃,怎么樣執(zhí)行框架,這個(gè)探索空間實(shí)在太重要了,因?yàn)槿祟悮v史上從來沒有過讓自然語言、讓我們每個(gè)人可以有一個(gè)開發(fā)對象,可以有一個(gè)開發(fā)機(jī)制。當(dāng)然現(xiàn)在還有做的不夠的,今天的framework(框架)不太穩(wěn)定,Black magic,需要更完整、更可靠、更穩(wěn)定。但這只是時(shí)間問題,一定會(huì)發(fā)生變化。
有了上面這個(gè)之后,我們要有開發(fā)對象。尤其是運(yùn)行時(shí),運(yùn)行時(shí)特別重要,沒有運(yùn)行開發(fā)出來的代碼怎么見到結(jié)果。今天運(yùn)行時(shí)有兩大類:后端,云上做服務(wù),大部分都是在后端云上做開發(fā),Model As A Service,原來是SAAS,逐步變成MaaS,這個(gè)主流很多;前端,目前做的最多的是Web端,像Vercel、Chrome extension,這些做的非常非常多,基本上大部分都是在Web端。但是,要大模型真正改變我們的一切,讓模型無處不在,它必須在手機(jī)端,必須在ROT端。在手機(jī)端非常微妙,我個(gè)人一直在關(guān)注這一點(diǎn),大家想想為什么微妙?開發(fā)體系一直沒出來,首先,蘋果,開發(fā)任何應(yīng)用他都抽30%,他自己在這方面也在思考該怎么做,蘋果在歷史上做人工智能、做算法方面一直是他不夠強(qiáng)的地方。另外,谷歌他有他的自己的目的,如果在安卓上面做,他顯然要把Bard塞進(jìn)去,要把他自己的東西塞進(jìn)去,他不是一個(gè)沒有偏向的一個(gè)Player。那如果要在手機(jī)端、移動(dòng)端上開發(fā)一個(gè)繁榮的開發(fā)體系生態(tài),我認(rèn)為是有新的機(jī)會(huì)的,看有特殊想法的大廠,擁有技術(shù)創(chuàng)業(yè)者,其在移動(dòng)端開發(fā)上找到新的、更繁榮的開發(fā)的路徑。還有最后是ROT段,因?yàn)樽罱K大模型必須要在每個(gè)端口都能夠落地,有大量的長期的機(jī)會(huì)。
還有開發(fā)者生態(tài),我看在座的有一些是“碼農(nóng)”,“碼農(nóng)”就知道我講的什么意思,不光要這些東西,還要有課可以去看,吳恩達(dá)的課,O'Reilly(出版公司)的課,他的新書還沒出來。某種意義上判斷某個(gè)軟件產(chǎn)業(yè)、信息產(chǎn)業(yè),就看O'Reilly的書有多少。我預(yù)計(jì)會(huì)有一大波這種書出來,同時(shí),論文和論文所附帶的代碼和數(shù)據(jù),GitHub DeepRibo,每天出來一大堆新的論文、新的數(shù)據(jù)、新的代碼。
這些加在一起,決定未來發(fā)展速度和發(fā)展寬度,就在這個(gè)開發(fā)堆棧上。誰搶占開發(fā)者心智,搶占開發(fā)者平臺(tái),誰就掌握著未來大量的發(fā)言。大家可以看出OpenAI是怎么做的,微軟是怎么做的,這是兵家必爭之地。
2.5、新產(chǎn)業(yè)發(fā)展不斷加速(海外)


在新的時(shí)代,產(chǎn)業(yè)發(fā)展速度實(shí)在太快了。我們做了大量努力,我們自己每天都在更新大模型日報(bào)等等。這一頁上面列舉了今年2023年五個(gè)月當(dāng)中我們關(guān)注的新的代碼、新的技術(shù)、新的論文、新的產(chǎn)品、新的投資案例,我們今天計(jì)算了這些指數(shù),把曲線畫在上面。大家可以看一下哈,首先是論文的次數(shù),這次你必須關(guān)注論文,不關(guān)注論文過不了這個(gè)坎。第二,你當(dāng)然要關(guān)注產(chǎn)品,同時(shí)資本生態(tài)的投入,關(guān)注投資案例。我們這些數(shù)據(jù)大家可以看下,這些數(shù)據(jù)都是我們奇績團(tuán)隊(duì)和奇績實(shí)習(xí)生做了大量的努力計(jì)算出的,我們還不斷的在思考和探索,用哪些指數(shù)可以看到它的發(fā)展的趨勢、發(fā)展的速度、發(fā)展的信號(hào)。根本上這一次范式的擴(kuò)散、它的寬度、它的廣度、它的力度、是我們過去從來沒有的,沒有感受過的,我們需要不同的想法、不同的手段才能跟得上。
2.6、新產(chǎn)業(yè)發(fā)展不斷加速(國內(nèi))


下一頁是中國的,大家可以看一下,我們(國內(nèi))現(xiàn)在的活躍度越來越高,在追趕,但是我們的整體數(shù)量跟國外比還是有相當(dāng)大的差距。這里還有一個(gè)重要點(diǎn),我們畫了標(biāo)了紅色的框,就是奮氣直追的團(tuán)隊(duì)。這里有MiniMax、有商湯、有王慧文、王小川、李志飛,有瀾舟、有李開復(fù)、有阿里、有百度等等,綜合在一起,反映出中國今天產(chǎn)業(yè)發(fā)展的一個(gè)快速攀升的狀態(tài)。

這個(gè)時(shí)代,它在擴(kuò)散,這一頁也挺重要,跟同學(xué)們分享一下。技術(shù)驅(qū)動(dòng)人類進(jìn)展,它的擴(kuò)散是有范式的。左上角是很典型的范式,這個(gè)在《跨越鴻溝》這本書里面用的很多,任何一個(gè)技術(shù)驅(qū)動(dòng)新的產(chǎn)品、新的產(chǎn)業(yè),它都是這樣的過程。它的Y軸早期是用戶數(shù)或者是Revenue收入,X軸是時(shí)間,它都是早期嘗鮮的人、早期有愿景的人,然后有個(gè)鴻溝,一大堆公司 “死掉”,跨了鴻溝之后公司活下來、高速增長等等,都是這樣往下走。但這一次的擴(kuò)散,它的源頭不一樣,它的源頭是我前面講到的思考體系和方法,是OpenAI所代表的。你要在源頭擴(kuò)散,必須有這三個(gè)小圓圈,第一,必須自己做研究,你要站在科研的前沿,你能夠發(fā)明嶄新的算法,新的架構(gòu)體系,你必須能夠自己做科研,OpenAI是自己做科研。第二,你必須能夠?qū)懘a,寫出高質(zhì)量代碼做infrastructure(基礎(chǔ)結(jié)構(gòu)),開發(fā)大量的體系。第三,你還能做平臺(tái)、還能做產(chǎn)品、還能做商業(yè)化,只有這三個(gè)在一起,你才能在前沿去做擴(kuò)散。同時(shí),論文為什么重要,它必須不斷的吸收相關(guān)的核心的計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、腦科學(xué)等領(lǐng)域的相關(guān)研究、基礎(chǔ)研究和應(yīng)用研究的論文,進(jìn)入這三個(gè)小圓圈。
同時(shí),這次擴(kuò)散跟過去不一樣,政府一般都很后面才進(jìn)來,(現(xiàn)在)政府很快、很早期就進(jìn)來要參與了,所以這一次的擴(kuò)散,它的范式結(jié)構(gòu)跟過去都不一樣。同時(shí),這次擴(kuò)散從國家地域上,全球主要是美國(北美)和中國。
另外,這次擴(kuò)散影響每一個(gè)人,不像其它技術(shù)。個(gè)人的行為很重要,創(chuàng)業(yè)者、創(chuàng)作者、“碼農(nóng)”、科學(xué)家都在不斷的學(xué)習(xí)探索實(shí)驗(yàn)。去用這個(gè)新的工具,因?yàn)檫@一次的認(rèn)知能力工具會(huì)把人和人之間距離拉開。我這里強(qiáng)調(diào)一下,這一次會(huì)把人的距離拉開,所以這次擴(kuò)散跟個(gè)人強(qiáng)相關(guān)。聰明、勤奮、努力,學(xué)會(huì)用這個(gè)工具的人,你跟你同一檔次的人很快會(huì)拉開距離,當(dāng)然也很容易掉伍。
再下面是產(chǎn)業(yè)的擴(kuò)散,這里是示意性的,每個(gè)產(chǎn)業(yè)擴(kuò)散都是這樣。下面(x軸)是時(shí)間的長度,長周期的產(chǎn)業(yè)、短周期的產(chǎn)業(yè),高度(y軸)是用戶多少或者市場體量有多少,只是示意性的。我們看到每一個(gè)產(chǎn)業(yè)都在早期,進(jìn)入擴(kuò)散狀態(tài)。最后,這一次的擴(kuò)散,Gartner(咨詢公司)的這種曲線都還不適用,Gartner公司的Hype Cycle(預(yù)測模型)曲線只是適用一般一個(gè)技術(shù)。這次擴(kuò)散更適用的,我們認(rèn)為是Carlota Perez,叫Techno-Economic Paradigms,這個(gè)作者叫Carlota Perez,是一位經(jīng)濟(jì)學(xué)家,她也很有可能得諾獎(jiǎng),她的經(jīng)濟(jì)理論被大量的公司所用。她的核心理論是說,如果一樣技術(shù)像冶金、像高速公路汽車影響每個(gè)人整個(gè)社會(huì)的,它都是80年的周期,分四個(gè)階段,爆發(fā)階段、狂熱階段、泡沫破滅到協(xié)同成熟。今天的數(shù)字化云和互聯(lián)網(wǎng)基本上過了前40年,后面還有40年獲得經(jīng)濟(jì)利益,但原創(chuàng)性基本上沒有了。大模型為先的時(shí)代還在早期,將高速增長,一定會(huì)成為泡沫破掉,泡沫之后是新的黎明,新一代更強(qiáng)的企業(yè),能夠從泡沫當(dāng)中活下來的企業(yè),未來都占據(jù)至高點(diǎn)。Carlota Perez有一本小書,就是這個(gè)名字,叫Techno-Economic Paradigms,這本書有點(diǎn)難啃,但是適合我們怎么看這次范式它的擴(kuò)散是怎么走的。
3、新機(jī)會(huì)

好,前面講的都是這個(gè)時(shí)代它的大的格局??吹竭@個(gè)發(fā)展趨勢和格局之后,那我們分析一下我們怎么去把控我們的機(jī)會(huì)。
3.1、全方位探索把握:技術(shù)驅(qū)動(dòng)創(chuàng)新內(nèi)在的“人+事”機(jī)會(huì)空間


我們想給大家提一個(gè)系統(tǒng)性的、全方位的如何去探索和把控好我們的機(jī)會(huì)(的意見),這里畫的這張圖是人和事系統(tǒng)性的去探索,我們畫的是針對創(chuàng)業(yè)公司。 “人”,就是核心創(chuàng)始人團(tuán)隊(duì),他的心力、愿力和能力,團(tuán)隊(duì)是通過引入新的人才、組織、文化等粘在一起,形成一個(gè)越來越強(qiáng)盛的人的體系。“事”,早期就是不斷的開發(fā)能力、技術(shù)能力、產(chǎn)品能力、交付能力、增長能力、商業(yè)價(jià)值能力、獲取資本能力,長期去實(shí)現(xiàn)它的價(jià)值空間。早期做的產(chǎn)品叫碗里的,后面延伸出來叫鍋里的產(chǎn)品,最后是用內(nèi)在的內(nèi)核去探索田里的商業(yè)價(jià)值。這是我們針對創(chuàng)業(yè)公司(做的圖),但是這里非創(chuàng)業(yè)公司也同樣可以用這張圖,因?yàn)槿魏稳祟愑薪M織的追求它的結(jié)構(gòu)都一樣,這個(gè)問題我過去研究過很多。不管是一個(gè)大的企業(yè)、一支軍隊(duì)、一個(gè)國家、一個(gè)球隊(duì),它結(jié)構(gòu)都一樣,只要有目的去組織人去追求這個(gè)目的,它內(nèi)在結(jié)構(gòu)都一樣。你懂管理一類人類組織,你就懂管理另一類人類組織。所以這個(gè)結(jié)構(gòu)大家可以引申出來,如果你不是創(chuàng)業(yè)也可以做參考。
首先,我們給大家提的是在今天這個(gè)階段,第一,要做的是不去蹭熱點(diǎn),輕浮本身就不好,尤其是在范式變更的情況下,輕浮的機(jī)會(huì)代價(jià)更大。因?yàn)槟悴錈嵋院?,如果是錯(cuò)的,那跌的跟頭跟一般的跟頭是不一樣的,所以千萬不要去蹭熱點(diǎn),想明白再做。第二,勤于學(xué)習(xí),這次新的范式它根本上是復(fù)雜的,專業(yè)性比較高,發(fā)展速度非常非常快。學(xué)習(xí)是避免不了的,(不學(xué)習(xí))過不了這個(gè)坎,我跟很多同學(xué)講該看的論文你還得啃,一遍啃不下來就啃兩遍,只有這樣才能真正理解這個(gè)范式對你意味著什么。(第三)同時(shí)要克服慣性思維,大家可以看一本書,Thomas Kuhn寫的《科學(xué)發(fā)展的范式》,一般大的范式,過去的人大部分都過不去,沒法克服太強(qiáng)的慣性思維,包括深度學(xué)習(xí),這次有很多過去做機(jī)器的學(xué)生就沒過來,(這是)不同的思考體系。所以一定要在學(xué)習(xí)的同時(shí)盡量克服慣性思維,同時(shí)必須深思熟慮,因?yàn)檫@一次的范式變革影響我們的方方面面。最后(第四),一旦想明白之后,必須行動(dòng)導(dǎo)向,因?yàn)檫@一次的變革不進(jìn)則退,原來的位置守不住,你只能行動(dòng)。想明白之后,果斷采取行動(dòng),不進(jìn)則退。
3.2、全方位思考探索:“事”的機(jī)會(huì)空間


接下來我們講下“事”怎么做。“事”對一個(gè)創(chuàng)業(yè)公司來講、對一個(gè)企業(yè)來講,有三個(gè)維度。第一,今天的產(chǎn)品和你做的生意有沒有新的機(jī)會(huì)?該怎么去探索?第二,你所在的產(chǎn)業(yè)是不是有根本性的變革?你應(yīng)該占個(gè)不同的坑?第三,你所在產(chǎn)業(yè)它的研發(fā)體系、它的能力是不是徹底變更了?要換一個(gè)全新的思路去做你想做的事,分上面三個(gè)緯度。
3.3、事的機(jī)會(huì)板塊:完整和系統(tǒng)性的機(jī)會(huì)探索框架


我們給大家一個(gè)系統(tǒng)性的框架,這框架是上圖這樣,有三個(gè)機(jī)會(huì)板塊在我們奇績體系里面,我們用這一切指導(dǎo)我們所有的投資,所有的創(chuàng)業(yè)公司跟創(chuàng)業(yè)的創(chuàng)始人做交互都是用這個(gè)體系。第一,人基本上就是認(rèn)識(shí)世界、改造世界,人是一個(gè)減熵的物種。第二,我們用數(shù)字化來延伸我們,所以數(shù)字化是機(jī)會(huì)的一大塊,數(shù)字化產(chǎn)業(yè)是一直驅(qū)動(dòng)整個(gè)這個(gè)階段的人類進(jìn)步的。數(shù)字化里面分兩個(gè)子板塊,一個(gè)是基礎(chǔ)設(shè)施平臺(tái),另外一個(gè)是數(shù)字化的應(yīng)用。數(shù)字化之外是改變世界,能源、生命科學(xué)、材料科學(xué)、空間,所以(圖中)是一個(gè)完整的、系統(tǒng)性的去探索事情怎么做。
這一頁我們把一些核心細(xì)節(jié)放進(jìn)來,主要是對數(shù)字化的應(yīng)用和數(shù)字化的平臺(tái)。數(shù)字化的基礎(chǔ)永遠(yuǎn)是平臺(tái)驅(qū)動(dòng)的,塑造的應(yīng)用我們可以系統(tǒng)完整去探索,因?yàn)榭梢园袰端分成人群、分成時(shí)長,我們可以把它分成一格一格的。B端需求基本上的穩(wěn)定,我們可以系統(tǒng)性去探索,因?yàn)閿?shù)字化只有六種affordence,一會(huì)跟同學(xué)們分享一下這六種affordence。
首先第一個(gè)affordence就是二維的信息,數(shù)字化是紙的延伸,這個(gè)數(shù)字化的能力基本上觸達(dá)了每一個(gè)品類了,我們每個(gè)人基本上都用電腦、用手機(jī),它觸達(dá)所有的人。第二,是三維的體驗(yàn),把它叫元宇宙,目前只有少數(shù)的品類游戲、社交有。第三,數(shù)字化的抽象關(guān)系、所有權(quán)、激勵(lì)機(jī)制,叫Web3?,這個(gè)還早,貨幣,DAO等等。第四,數(shù)字化驅(qū)動(dòng)的物理環(huán)境的交互:自動(dòng)駕駛、機(jī)器人。第五,數(shù)字化嵌入人的身體內(nèi)在的腦肌接口,內(nèi)部測試的機(jī)制,這個(gè)也是指少數(shù)。第六,最后一個(gè),數(shù)字化帶來的知識(shí)是嵌入的,到處都可以用。所以這一次我們創(chuàng)新的空間,基本上是用二維的信息加上嵌入的知識(shí),去找所有可以應(yīng)用的類別,探索我們的機(jī)會(huì)。
3.3.1、數(shù)字化基礎(chǔ)

3.3.1.1、數(shù)字化平臺(tái)結(jié)構(gòu)

接下來我們講一下數(shù)字化的基礎(chǔ)有哪些機(jī)會(huì)。首先數(shù)字化基礎(chǔ)機(jī)會(huì),它是一個(gè)穩(wěn)定的、可以探索的結(jié)構(gòu),數(shù)字化穩(wěn)定結(jié)構(gòu)是這樣:首先,數(shù)字化永遠(yuǎn)是平臺(tái)驅(qū)動(dòng)的,做平臺(tái)的最多是微軟公司,他們有一個(gè)比較完整體系。我在微軟呆了不少時(shí)間,這是我總結(jié)出來的(圖上),前端是可延伸的、能體驗(yàn),它有設(shè)備、有容器、有畫布,后端是完整可延伸的能力,計(jì)算、存儲(chǔ)、通訊。大家要關(guān)注一個(gè)點(diǎn),萬億美元的公司都在前端做設(shè)備、做操作系統(tǒng),它是價(jià)值的控制點(diǎn),底層的基礎(chǔ)設(shè)施是計(jì)算體系、是芯片、是基礎(chǔ)服務(wù)、是開源的代碼等等。
3.3.1.2、大模型時(shí)代新一代基礎(chǔ)設(shè)施和工具

在今天大模型為先的時(shí)代,基礎(chǔ)有大量的機(jī)會(huì)。某種意義上,從投資和創(chuàng)業(yè)者角度來講,這是最容易賺錢存活的地方。舉個(gè)例子,在淘金時(shí)代(1740年)去加州淘金,淘金者會(huì)死掉一半,但是賣鏟子的、賣勺子的人活得很好,就像(大模型)這個(gè)生意。因?yàn)樵诖竽P蜑橄鹊臅r(shí)代,我們必須要有一系列新的算力、新的基礎(chǔ)設(shè)施,這是一定要有的,它門檻有點(diǎn)高,你能創(chuàng)業(yè),雖然做這生意會(huì)有門檻,但是一定有機(jī)會(huì)。
首先是新的有效算力,今天都是基于GPU,但系統(tǒng)架構(gòu)有其他選擇,長期會(huì)趨向于像Data Flow(數(shù)據(jù)流)這種架構(gòu),需要時(shí)間,但長期的機(jī)會(huì)非常非常大。第二,前面講到的新的算力,可能我們根本就不需要服務(wù)器這個(gè)概念,我們需要的是幾萬張卡連在一起的能力,比如Infracore(基礎(chǔ)堆芯)就是我們這一屆創(chuàng)業(yè)營的一個(gè)創(chuàng)業(yè)公司(清華的團(tuán)隊(duì)),就是RDMA,在以太網(wǎng)上連接起來叫RoCE。第三,訓(xùn)練系統(tǒng)、微調(diào)系統(tǒng)、推理系統(tǒng)、基礎(chǔ)軟件,比如像王慧文并購的OneFlow等等。第四,數(shù)據(jù)體系,尤其是Embedding?、數(shù)據(jù)庫檢索體系,因?yàn)檫^去這個(gè)時(shí)代一個(gè)好的生意就是賣數(shù)據(jù)庫、做檢索,有Oracle(甲骨文公司)等等,在這個(gè)時(shí)代一定是這類公司,大家關(guān)注投資生態(tài)的話,他們?nèi)阱X都融得非常非???,像Pinecone?、像Zilliz?都非常非常強(qiáng)。第五,開發(fā)工具一定有機(jī)會(huì)的,這里我們要關(guān)注的是,今天GPU開發(fā)的工具都是從原來圖形學(xué)延伸出來的,下面都是shader(著色器),現(xiàn)在上面用CUDA,英偉達(dá)的體系。但是,OpenAI它推的是Triton,Triton是他并購的一家公司,他們做了五年多了,是新的語言,這個(gè)語言能夠把并行算力用得更有效,可以繞過原來shader的那一套,可以繞過原來CUDA的那一套。所以從創(chuàng)業(yè)角度來講又有新的機(jī)會(huì)。當(dāng)然(第六)有開源的體系、開源的數(shù)據(jù)集、開源的論文等等,有大量的機(jī)會(huì),而且非常非常重要。
3.3.1.3、大模型時(shí)代的新平臺(tái)

同時(shí),在數(shù)字化基礎(chǔ)當(dāng)中,更大的機(jī)會(huì)是平臺(tái)。前面講過了,有前臺(tái)和后臺(tái),商業(yè)機(jī)會(huì)非常非常大。在這個(gè)平臺(tái)我們把中國和美國作為示意列出來了,美國是OpenAI,還有幾個(gè)創(chuàng)業(yè)公司:有谷歌、有微軟,中國有百度、阿里、王小川的百川智能、王慧文的光年之外、MiniMax等很多這類公司。大家可以設(shè)想一下,十年以后它的體量有多大?今天谷歌是一個(gè)萬億美元的公司,(新的平臺(tái))不只萬億美元。雖然成功概率不一定高,也會(huì)一路艱難,但是你有能力,這是非常值得去探索的機(jī)會(huì)。這個(gè)平臺(tái),它的體量實(shí)在太大了。

下面講一下在這個(gè)基礎(chǔ)時(shí)代還有新的機(jī)會(huì)是新的硬件設(shè)備,因?yàn)樵诖竽P蜁r(shí)代,硬件的體驗(yàn)將不一樣。有個(gè)比較有典型意義的是有一家公司叫Humane,它其實(shí)已經(jīng)有點(diǎn)年份了,過去一直沒找到好的產(chǎn)品,是蘋果出來做硬件的團(tuán)隊(duì),他做了你戴在身上的硬件,這個(gè)硬件它能看到你所看到的一切、能聽到你所聽到的一切,它不斷的幫你思考。這個(gè)比手機(jī)更管用,手機(jī)沒法照所有的一切、聽所有的一切,手機(jī)不能每時(shí)每刻幫我想問題、幫我思考、幫我梳理。現(xiàn)有的軟件也可以有新的體驗(yàn),如果你有眼鏡、有頭盔。今天眼睛看到的信息,以后看到的是知識(shí)、看到是模型:這里是這么回事、這個(gè)人不靠譜,這是新的體驗(yàn)端、新的操作系統(tǒng)、新的生態(tài)。
3.3.1.4、第三代系統(tǒng)(自主化和自動(dòng)化大模型平臺(tái)機(jī)會(huì))

同時(shí),第三代系統(tǒng):自動(dòng)駕駛、機(jī)器人、空間計(jì)算組合的機(jī)會(huì)也加速到來,它需要新的硬件、新的算力、新的開發(fā)體系、新的模態(tài),用大模型來驅(qū)動(dòng)下一個(gè)拐點(diǎn)的機(jī)會(huì)一定會(huì)有。自動(dòng)駕駛有新的機(jī)會(huì),為什么?我跟同學(xué)們稍微講下自動(dòng)駕駛為什么有新的機(jī)會(huì)。今天自動(dòng)駕駛已經(jīng)做了十幾年了,但今天的自動(dòng)駕駛體系是以視覺為主的,開車很累,我們?nèi)碎_車一點(diǎn)都不累,輕輕松松、聽聽音樂、講講話,為什么我們開車不累?因?yàn)槲覀冇姓Z言,我們能零樣本范化。我舉個(gè)例子,我們在路上開車,看到前面有一個(gè)老人舉著一個(gè)奧林匹克的旗幟走過來,我們零樣本范化,老人離我還早著呢,我根本不用擔(dān)心,我慢慢開過去到那邊,繞過去就行。但是今天的自動(dòng)駕駛系統(tǒng)軟件,它會(huì)緊張的不得了,因?yàn)樗鼜膩頉]見過(老人+旗幟合在一起),它不知道這東西是啥,它離我有多近?我撞上去怎么辦?它沒有這個(gè)范化能力。所以(大模型時(shí)代)我們有全新的機(jī)會(huì),用新一代語言模型帶來的泛化能力打通模態(tài),當(dāng)然用大模型驅(qū)動(dòng)新一代的機(jī)器人也有很大的機(jī)會(huì)。機(jī)器人和自動(dòng)駕駛將是人類最大的兩個(gè)產(chǎn)業(yè),即使在我們奇績,我們這一屆有60個(gè)項(xiàng)目里面有很多是做機(jī)器人的,有好幾個(gè)創(chuàng)業(yè)者都在朝這個(gè)方向走。
3.3.2、數(shù)字化應(yīng)用

3.3.2.1、技術(shù)推動(dòng)+需求拉動(dòng)

前面講的是數(shù)字化的基礎(chǔ),接下來我要講的是數(shù)字化的應(yīng)用,數(shù)字化的應(yīng)用有兩個(gè)重要的點(diǎn),找應(yīng)用一定是“技術(shù)推、需求拉”,一定要技術(shù)和需求相匹配才行。模型能封裝所有的知識(shí),這次的技術(shù)它覆蓋所有的需求,你要判斷的是這個(gè)模型是不是足夠強(qiáng)、模型在你這個(gè)領(lǐng)域發(fā)展速度會(huì)不會(huì)很快,假定你是醫(yī)療、假定你是健身、假定你是教育,你得判斷下這個(gè)模型在你的領(lǐng)域,它發(fā)展速度是不是會(huì)很快。另外這次“需求拉”,一定要找到需求,對知識(shí)、對模型比較敏感的這種需求。同時(shí),我跟同學(xué)們一定要強(qiáng)調(diào)這個(gè)概念,在這個(gè)時(shí)代,你一定要做大模型為先的產(chǎn)品。
3.3.2.2、大模型為先的發(fā)展過程

我解釋一下為什么大模型為先,首先人類需求它本質(zhì)上也是三位一體的,任何一件事情我們既需要信息,又需要知識(shí)模型,又需要行動(dòng)來滿足我們的需求。比方說電商,今天都是用的信息,模型幾乎沒有,我們每一次看我這個(gè)領(lǐng)域里面信息有多少,模型能有什么樣的模型,行動(dòng)能有什么行動(dòng),一定要做成一個(gè)三位一體的,這是大模型為新的體驗(yàn),一定是要三位一體的考慮。第二,大模型為先的時(shí)代的產(chǎn)品,我強(qiáng)烈建議用自然語言,這是你的機(jī)會(huì),因?yàn)槲铱春芏嗤瑢W(xué)做產(chǎn)品,信息時(shí)代的慣性太大了,做出來東西就是用手機(jī)打開、看了一大堆文字、看了圖片、看了視頻,給我的都是信息,NO!這是過去,今天起步得是自然語言交互,起步得告訴我你懂什么東西,你跟我怎么交互,有機(jī)會(huì)行動(dòng)導(dǎo)向,信息只是提供了個(gè)基礎(chǔ),三位一體是終局,如果你的創(chuàng)業(yè)賽道有機(jī)會(huì)三位一體,你必須搶先進(jìn)去,不然不是大模型為先。在微軟我跟Satya聊,他講的也是這一點(diǎn),微軟為什么要選這個(gè)詞:we pivot the company,公司要pivot,萬億美元的公司要pivot,因?yàn)槲④浢總€(gè)產(chǎn)品必須要重做一遍、重新構(gòu)思一遍,要大模型為先來設(shè)計(jì)這個(gè)產(chǎn)品,不是信息為先。同時(shí)很多同學(xué)都問我這個(gè)領(lǐng)域能不能做?你一定要考慮你這個(gè)領(lǐng)域、這個(gè)生意有沒有壁壘?這里有個(gè)簡單的范式,你可以做的生意是:第一,你自己有數(shù)據(jù);第二,你可以自己開發(fā)模型,你可以用大模型來開發(fā)模型;第三,你的模型被使用之后,使用的數(shù)據(jù)你能拿得到,使用的數(shù)據(jù)回過來有個(gè)閉環(huán),你的自有數(shù)據(jù)越來越強(qiáng)。如果你有這樣一個(gè)結(jié)構(gòu),你這個(gè)生意肯定可以做。所以大模型為先,三位一體的體驗(yàn)和閉環(huán),數(shù)據(jù)——模型——使用閉環(huán)是這個(gè)時(shí)代一定要做的。另外,我們給大家一個(gè)基本的范式,在大模型為先時(shí)代怎么考慮運(yùn)用起來,技術(shù)上考慮三個(gè)點(diǎn):第一,模型在你所在的領(lǐng)域,它進(jìn)展的速度是高還是中還是低,有些領(lǐng)域模型開發(fā)很難,需要收集新的數(shù)據(jù),很貴,有些領(lǐng)域模型很快可以開發(fā),你得判斷高中低;第二,你做三位一體的體驗(yàn)的機(jī)會(huì)是高還是中還是低,如果你能做三位一體,趕快做,你搶占長期的一個(gè)制高點(diǎn),終局是三位一體;第三,大模型時(shí)代,在你所在這個(gè)領(lǐng)域,是不是把你所在的領(lǐng)域研發(fā)體系每個(gè)環(huán)節(jié)都顛覆掉了,你必須考慮重新怎么你這個(gè)產(chǎn)品。這是我們給大家一個(gè)簡單的框架,在每個(gè)應(yīng)用里你要這樣考慮。
3.3.2.3、大模型為先之下的“需求導(dǎo)向+三位一體”

接下來跟大家講的是在需求端,每個(gè)領(lǐng)域有每個(gè)領(lǐng)域的需求,對信息要判斷信息機(jī)會(huì)有多大,比方說金融主要是個(gè)信息產(chǎn)品;有些領(lǐng)域信息不是那么重要,它要的是模型;有些領(lǐng)域要的是行動(dòng),比如鍛煉身體,過去互聯(lián)網(wǎng)健身為什么做不好?健身主要還是要行動(dòng),我要把重量降下來,你光給我信息有啥用的。所以要看每個(gè)領(lǐng)域模型的重要性,行動(dòng)的重要性。有了這兩個(gè)判斷之后,我們就給大家一個(gè)框架,這兩個(gè)三角形,這是我們的判斷或者是我個(gè)人的判斷,不一定對,都在變化。
3.3.2.4、微觀層面的機(jī)會(huì)洞察:數(shù)字化滿足人類需求的視角

首先講一下人的信息需求,我們都要用搜索引擎獲取信息,為什么大模型時(shí)代第一槍是開在搜索引擎上?為什么是Bing VS Bard?因?yàn)樗阉饕姹旧硎亲罱咏竽P蜁r(shí)代的產(chǎn)品,它是個(gè)大模型。但是搜索有兩大類搜索將完全不一樣,你去搜索引擎一部分是找信息,這個(gè)不會(huì)變;另一部分是解決問題,是下載一個(gè)東西,去打個(gè)電話,這一切都會(huì)變,廣告模式不一定成立;第三類搜索需求是知識(shí)探索,去回答問題,為什么中東和平這么難?你輸入關(guān)鍵詞后看五篇文章,接下來就叫ChatGPT、叫Bing給我總結(jié)成三條就解決問題了。商業(yè)模式是什么?是訂閱?知識(shí)付費(fèi)還是什么?有勇氣的探索者、創(chuàng)業(yè)者,美國也有,中國也有。美國已經(jīng)有幾家搜索引擎了,現(xiàn)在做搜索融錢都很容易,這是嶄新的機(jī)會(huì)。

內(nèi)容,我們認(rèn)為是一切都是顛覆性的,因?yàn)檎麄€(gè)生態(tài)體系都變了,覆蓋了所有的一切。早期是內(nèi)容的分發(fā)、內(nèi)容的營銷,最終長期一個(gè)關(guān)鍵問題,頭部的PGC大模型是不是能做?這個(gè)有爭議,可能還是人要做,真正還是要藝術(shù)家,但是大量的工作都會(huì)被替代掉,都會(huì)被提升,都有大量放大每個(gè)人的能量的機(jī)會(huì)。

游戲,我們認(rèn)為這個(gè)行業(yè)將會(huì)徹底重新改觀。因?yàn)橛螒蜻@個(gè)行業(yè),(第一)它研發(fā)體系的五個(gè)核心環(huán)節(jié)都將不一樣,將是一個(gè)嶄新的研發(fā)體系;第二,游戲的體驗(yàn)也將完全不一樣,今天我們在創(chuàng)業(yè)公司上已經(jīng)看到,你可以生成資產(chǎn)、生成場景、生成整個(gè)游戲,不光生成整個(gè)游戲,還生成NPC,不光生成NPC,還生成NPC之間是怎么動(dòng)的,本質(zhì)上生成了一個(gè)世界。游戲是數(shù)字化的孿生,我們一直看好這個(gè)賽道,機(jī)會(huì)非常非常大。

消費(fèi)電商機(jī)會(huì)有沒有?我們的眼里一定有,為什么?今天的電商是個(gè)很大的品類,但是我們看都是信息,對吧?看到的都是產(chǎn)品信息、產(chǎn)品頁,但我要買東西好的消費(fèi)體驗(yàn)是什么呢?假定說我去夏威夷度假,我想買一個(gè)鞋子、買頂帽子,一個(gè)好的體驗(yàn)是老板跟我說夏威夷適合這種帽子、適合這種鞋,分別適合你的一家四口。一個(gè)好的老板是懂模型的,這種消費(fèi)體驗(yàn)以后都是場景性的、知識(shí)性的、conversational(會(huì)話式)的,顛覆性的機(jī)會(huì)自然有,帶來更好的體驗(yàn)。

社交有沒有?歷史上都有局部的機(jī)會(huì),為什么?只要有新的內(nèi)容,好的模型就是新的內(nèi)容,假如說我有五個(gè)模型,它交我怎么炒股票、怎么找好的工作、怎么講好的笑話等等,這個(gè)模型在微信上不準(zhǔn)分享,要分享必須另外邀請好友,那你不是重新建立了個(gè)新的社交圖譜了嗎?對吧,歷史上游戲規(guī)則一直是這樣,如果你有一種好的內(nèi)容,你就有可能重新建立社交網(wǎng)絡(luò)。同時(shí)社區(qū),我認(rèn)為一切都有改變的機(jī)會(huì),比如說美國有個(gè)社區(qū)叫Quora,就是美國的知乎,它的創(chuàng)始人叫Adam D' Angelo,他在OpenAI的董事會(huì)上,大家可以關(guān)注到Quora產(chǎn)品幾個(gè)月之間全部變掉,都是對話機(jī)器人,不再去看一大堆文章了,為啥看文章?我問問題不就可以了嗎?我要的就是知識(shí)!機(jī)會(huì)可以系統(tǒng)性探索。

通訊,非常有意思。通訊是搬用信息的產(chǎn)品,比如騰訊會(huì)議等等,今天這些產(chǎn)品沒有任何模型,假定說有10個(gè)人開會(huì),這邊3個(gè),那邊7個(gè),開完30分鐘之后他什么都不知道,這里有三個(gè)銷售團(tuán)隊(duì),他賣數(shù)據(jù)庫,那邊是一家車企,他對價(jià)格不滿意,對這里性能不滿意,30分鐘開完之后,所有的總結(jié)都給你分析好了,給你一大堆知識(shí),給你一大堆模型。

醫(yī)療更不用說了,醫(yī)療是三位一體的,醫(yī)療必須采取行動(dòng),有病光給我信息沒用,光給我模型說你為什么得病也沒用,得給我吃藥!得給我開刀!它必須三位一體,三個(gè)維度都有大量的機(jī)會(huì),診斷、開藥方、寫病例,用對話,每個(gè)護(hù)士都有Co-pilot,每個(gè)醫(yī)生都有10個(gè)Co-pilot,每個(gè)診斷、每個(gè)治療都是專業(yè)模型,都可以用大模型做得更好,每個(gè)手術(shù)、每個(gè)自然流程都可以用機(jī)器人:服務(wù)機(jī)器人、手術(shù)機(jī)器人。這三個(gè)維度加在一起,10年或15年或20年以后,我們將有希望重建一個(gè)醫(yī)療體系。這很強(qiáng)大,尤其在中國,中國醫(yī)療本來就供需不平衡,可以做得更好。

教育,非常非常核心,挑戰(zhàn)很大,機(jī)會(huì)更多??赡苡型瑢W(xué)看了Sal Khan Academy創(chuàng)始人在Ted的演講(一個(gè)禮拜前),Khan Academy是OpenAI的戰(zhàn)略合作伙伴,大家去想一想,用大模型可以做一對一的教師,可以讓每一個(gè)小孩個(gè)性化的學(xué)任何概念,大學(xué)、職業(yè)培訓(xùn)有大量的機(jī)會(huì)。它是根本性的,一個(gè)國家、一個(gè)地域,只要教育好,一切都會(huì)好。

開發(fā)者,這個(gè)非常非常特殊,OpenAI和微軟都非常重視。核心是人類歷史上從來沒有用不同的語言(用自然語言),不同的抽象層次、不同的開放目標(biāo)、不同的價(jià)值點(diǎn),讓每一個(gè)人都能開發(fā)軟件,這是這次所代表的。

設(shè)計(jì)師,一樣的機(jī)會(huì)。早期是創(chuàng)意階段,二維的設(shè)計(jì)、三維的設(shè)計(jì)、視頻設(shè)計(jì)等等,長期發(fā)展是每個(gè)設(shè)計(jì)環(huán)節(jié)都將用模型自動(dòng)或者幫助人做得更好。

科研,這是最根本的。每個(gè)科學(xué)家將有很多副駕駛員和正駕駛員,每個(gè)科學(xué)實(shí)驗(yàn)都可以逐步做到自動(dòng)化。更為重要的是在大模型時(shí)代,我們科研探索方法將用數(shù)據(jù)驅(qū)動(dòng)、用計(jì)算驅(qū)動(dòng),不再一個(gè)一個(gè)的解決科學(xué)問題,而是一類一類去解決。讓大模型去產(chǎn)生新的、涌現(xiàn)出來的新的推理能力。

OA(辦公自動(dòng)化)辦公,不用多講了。微軟、中國的金山跟企業(yè)合作都在探索。

營銷和客戶有大量的機(jī)會(huì)。Salesforce有EinsteinGPT,Adobe有Firefly,因?yàn)闋I銷是離錢最近的,大模型可以把每一個(gè)營銷環(huán)節(jié)做得更好。

ERP(信息化管理)也一樣。ERP是歷史更久的一個(gè)產(chǎn)業(yè),也是個(gè)重模型的產(chǎn)業(yè),這個(gè)模型都是人建的,都不好用,都僵硬,這次有機(jī)會(huì)徹底改變ERP模型的體驗(yàn),讓每個(gè)ERP都可以直接做到三位一體,更好的服務(wù)好企業(yè)。

生產(chǎn)制造。下一個(gè)時(shí)代,用機(jī)器人服務(wù)、自動(dòng)駕駛加空間計(jì)算組合在一起,每個(gè)工廠、每個(gè)生產(chǎn)環(huán)節(jié),包括農(nóng)業(yè),都有系統(tǒng)性的機(jī)會(huì)。

城市也一樣。城市的數(shù)字化、信息化,辦公也可以,城市的模型化,數(shù)字孿生有局部的作用,但是不夠強(qiáng),真正能用的是大模型時(shí)代,用原位數(shù)字化、用更強(qiáng)的模型能力、更多的交互能力。自然語言交互,讓城市管理每個(gè)角落都能夠精細(xì)化的落地。園區(qū)GPT、城市GPT只是一個(gè)時(shí)間問題,都會(huì)發(fā)生。
3.3.3、改造世界

3.3.3.1、新能源科技

新的能源。用剛才講都數(shù)字化的應(yīng)用,用數(shù)字化去改變世界,首先要有能源。新的能源,可自動(dòng)化驅(qū)動(dòng),但是大模型在方方面面都能越來越直接的驅(qū)動(dòng)新的能源。首先,能源體系的規(guī)劃和運(yùn)營,大模型一定有非常多的用武之地。第二,能源體系的研發(fā),可以應(yīng)用大模型。第三,長期核心技術(shù)的研發(fā),大模型的切入只是時(shí)間問題,已經(jīng)有越來越多的大廠和創(chuàng)業(yè)公司在積極探索新一代能源和大模型相結(jié)合,驅(qū)動(dòng)創(chuàng)新的機(jī)會(huì)。生產(chǎn)規(guī)劃GPT、電池設(shè)計(jì)GPT、能源管理GPT、碳交易,最后是一個(gè)大的社會(huì)協(xié)同生態(tài),一定會(huì)跟大模型有非常融合的契機(jī)。
3.3.3.2、新生命科技

生命科學(xué)更直接。大家可以想一想這一次深度學(xué)習(xí)革命,這次大模型時(shí)代,本質(zhì)上它的機(jī)理跟生命體系的計(jì)算體系、跟碳基非常非常接近,內(nèi)在結(jié)構(gòu)是類似的。這里的機(jī)會(huì)非常非常多,尤其是結(jié)構(gòu)設(shè)計(jì),用數(shù)字化驅(qū)動(dòng)做篩選、用數(shù)字化驅(qū)動(dòng)做各個(gè)環(huán)節(jié)的生產(chǎn),更為重要的是用大模型,核酸一級的大模型、蛋白一級的大模型。不同的維度,有根本性意義上驅(qū)動(dòng)這個(gè)產(chǎn)業(yè)往前走的機(jī)會(huì)。
3.3.3.3、新材料科技

材料科學(xué),它的方向也一樣,它更是產(chǎn)業(yè)驅(qū)動(dòng)的。我們已經(jīng)有材料基因,用大模型去驅(qū)動(dòng)不同材料結(jié)構(gòu)的設(shè)計(jì)、性能的設(shè)計(jì),用數(shù)據(jù)驅(qū)動(dòng)、計(jì)算去探索新的材料體系、新的材料表征等等,同時(shí)材料科學(xué)、材料體系也有大模型的機(jī)會(huì)。用大模型系統(tǒng)性的更有效的去探索新的材料,包括用大模型系統(tǒng)更模擬體系、跟今天一些重要的計(jì)算體系,比如說勢能函數(shù)等等相結(jié)合,更強(qiáng)的去驅(qū)動(dòng)創(chuàng)新。
3.3.3.4、新空間科技

最后是空間??臻g在地面上自動(dòng)駕駛,在水里、在低空、在軌道空間,在軌道之外的指數(shù)空間都有新的模態(tài)、新的數(shù)據(jù),遙感通訊等等。最后,人類在更遠(yuǎn)的空間、其他的星球建立人類的探索基地、發(fā)展基地,這些都跟大模型有強(qiáng)相關(guān)、創(chuàng)新的連接,有非常非常系統(tǒng)性的探索的機(jī)會(huì)。
3.3.3.5、新執(zhí)行環(huán)境

講“事”的機(jī)會(huì)的最后,在大模型時(shí)代每個(gè)企業(yè)的執(zhí)行環(huán)境不一樣,比如說馬太效應(yīng)會(huì)加劇。OpenAI是用GPT4來做GPT5,他的每一個(gè)“碼農(nóng)”、每一個(gè)數(shù)據(jù)分析師,他們的能力都放大了很多很多,大家可以想象一下滾雪球先行優(yōu)勢有多大,競爭的格局不一樣、壁壘不一樣、知識(shí)產(chǎn)權(quán)保護(hù)不一樣、國際化格局不一樣、社會(huì)關(guān)系不一樣、社會(huì)責(zé)任不一樣。我們每一位同學(xué)、每一個(gè)企業(yè)都要關(guān)注新范式的執(zhí)行體系。
3.4、全方位思考探索:“人”的機(jī)會(huì)空間


好,我們把 “事”的機(jī)會(huì)都講完了,最后簡單講一下“人”的機(jī)會(huì)。我們針對創(chuàng)業(yè)者、針對創(chuàng)始人、其他的一號(hào)位,如果你是某個(gè)企業(yè)的一號(hào)位,某個(gè)機(jī)構(gòu)的一號(hào)位一樣,對個(gè)人來講,越來越重要的是愿力,你是不是對未來有一個(gè)獨(dú)到的見解,而且你有很大的心力可以堅(jiān)持不懈的追求這個(gè)愿景,能力也重要,但是寫代碼的能力時(shí)間長了以后越來越不重要,設(shè)計(jì)芯片的能力時(shí)間長了越來越不重要,你的能力是學(xué)會(huì)工具的能力和使用工具的能力。OpenAI的成功就是一個(gè)典型,強(qiáng)大的愿力、強(qiáng)大的心力,能力他比其他公司能力強(qiáng)嗎?不突出,他突出自心力和愿力。團(tuán)隊(duì)是探索的方向、探索的能力、集體探索的能力。人才的培養(yǎng)是思考學(xué)習(xí)、是新的職能設(shè)計(jì),這一次人和人之間距離、團(tuán)隊(duì)和團(tuán)隊(duì)之間的距離會(huì)拉大,培養(yǎng)非常重要。在組織上一定要提前布局,積極探索和打造未來需要的能力、價(jià)值觀、社會(huì)責(zé)任等等,這是對我們每一個(gè)人和團(tuán)隊(duì)上的一個(gè)考量。
3.5、時(shí)代的機(jī)會(huì):技術(shù)驅(qū)動(dòng)發(fā)展帶來的職業(yè)趨向


最后兩頁我跟同學(xué)們分享一下,這幾頁挺關(guān)鍵,這里跟前面講的都連接在一起。這張圖我是幾年前在美國互聯(lián)網(wǎng)上找到的,之前找到英文的,后面我把它翻成中文,這張圖所代表的是什么,是職業(yè)的去向,我建議每位同學(xué)都要考慮一下,因?yàn)檫@是生產(chǎn)力和生產(chǎn)關(guān)系、社會(huì)關(guān)系都決定造成的。在每個(gè)不同的歷史階段都有一個(gè)職業(yè),它把風(fēng)險(xiǎn)算進(jìn)去之后,它是創(chuàng)造財(cái)富最多一個(gè)職業(yè),因?yàn)椴煌瑫r(shí)代它的生產(chǎn)力不一樣。曾經(jīng)打獵是最賺錢的,曾經(jīng)武士能夠打仗是最賺錢的,上個(gè)世紀(jì)在華爾街能夠買賣公司是最賺錢的,這個(gè)世紀(jì),毫無疑問創(chuàng)業(yè)是創(chuàng)造財(cái)富最大的一個(gè)職業(yè),要對得起自己,要考慮是否要?jiǎng)?chuàng)業(yè)。同時(shí),我看到這張圖當(dāng)時(shí)就問下一個(gè)(創(chuàng)造財(cái)富)職業(yè)是什么呢?答案已經(jīng)有:科學(xué)家、研發(fā)者。但是是OpenAI這樣的科學(xué)家,是既能夠做科研寫論文,又能夠?qū)懘a,又能夠做平臺(tái),是新一代的科學(xué)機(jī)構(gòu),是新一代的科學(xué)范式,這跟科學(xué)的第四范式?、第五范式?是強(qiáng)相關(guān)的。所以同學(xué)們一定要考慮,今天創(chuàng)業(yè)非常好,接下來3年、10年、20年、30年、40年、50年,新一代的科學(xué)研發(fā)將是更好的職業(yè),這跟我下一張有關(guān)。
3.6、時(shí)代的機(jī)會(huì):基礎(chǔ)范式的演變


這一張是時(shí)代的機(jī)會(huì),(這一頁我重新編輯了下,改過的好像沒拿來,這張ppt有幾個(gè)地方?jīng)]改),這一頁想講的是職業(yè)范疇給大家職業(yè)帶來的機(jī)會(huì),這里想講是什么,是范式的變化給我們每個(gè)人帶來的一個(gè)大的機(jī)會(huì)。首先,我們前面講了科學(xué)進(jìn)入第四范式和第五范式,我們得回答一個(gè)問題、一系列問題。今天誰在引領(lǐng)信息科學(xué)?這個(gè)問題十年前已經(jīng)很明顯了,不是一流的大學(xué)、不是國立實(shí)驗(yàn)室,是大廠、是微軟、是谷歌,毫無疑問。我們再問問題,今天誰在引領(lǐng)信息科學(xué)的皇冠上的明珠:人工智能?已經(jīng)不是谷歌,也不是微軟,是創(chuàng)業(yè)公司,是OpenAI,是DeepMind。今天誰在引領(lǐng)空間科學(xué)?不是NASA,不是波音,是個(gè)創(chuàng)業(yè)公司叫SpaceX。這些是為什么?同學(xué)們想過沒有?結(jié)構(gòu)性的原因!科學(xué)的范式,如果需要數(shù)據(jù)、需要計(jì)算來發(fā)現(xiàn)新的科學(xué)現(xiàn)象,它跟商業(yè)化分得開嗎?接下來我們看到的趨勢是任何一個(gè)科學(xué)領(lǐng)域都在朝這個(gè)方向走,越來越多大學(xué)的體系長得像個(gè)基金,每個(gè)教授越來越像一個(gè)基金里面的GP(普通合伙人),大的趨勢非常明顯。今天這個(gè)范式是1944年建立的,美國有個(gè)人叫Vannevar Bush,羅斯??偨y(tǒng)叫他寫了一本小冊子,它叫《科學(xué):無盡的前沿》,它里面核心說的是怎么發(fā)展科學(xué),是國家聯(lián)邦政府收稅把錢給國立一系列的研究型大學(xué),研究型大學(xué)里面做基礎(chǔ)研究、做應(yīng)用研究,教授帶著研究生。當(dāng)時(shí)美國國會(huì)爭議最多的是到底誰決定研究方向,最后是科學(xué)家來決定,歷史上(證明這是)對的。這個(gè)體系造成的是什么呢?我們有很多基礎(chǔ)研究在大學(xué)里面做,發(fā)了論文,這個(gè)人可以在學(xué)校呆 20年,然后有人做應(yīng)用研究,又發(fā)了對論文,又可以呆10年,有些大廠看這個(gè)有點(diǎn)用,我拿出來把它做成技術(shù),或者有些開發(fā)產(chǎn)品人說這個(gè)技術(shù)有用,我去做產(chǎn)品,產(chǎn)品做好以后營銷端的去賣給用戶,技術(shù)驅(qū)動(dòng)社會(huì)進(jìn)步是這樣一個(gè)流水線。但我們今天看到是開始倒過來了,前面講到YC體系、OpenAI是一個(gè)需求拉動(dòng)為主的一個(gè)體系,我們今天看到的是越來越多創(chuàng)業(yè)公司不光做應(yīng)用研究、它還要做基礎(chǔ)研究,但是它做研究的同時(shí)是又開發(fā)技術(shù)、又開發(fā)產(chǎn)品、又做商業(yè)化,它是三位一體的。這個(gè)體系的好處是什么?我們?nèi)祟悮v史上從來沒有過一個(gè)探索新機(jī)會(huì)的體系,它是無縫不入的,無處不在的。它是投資機(jī)構(gòu)、它是創(chuàng)始人,他看到機(jī)會(huì)、他融到錢,他就進(jìn)去了。我們需要的是有抱負(fù)、有遠(yuǎn)見、有愿力、有心力、有能力的人,找到好的資金和資源的扶持去系統(tǒng)性的探索這個(gè)機(jī)會(huì)。這個(gè)范式的變更給我們帶來時(shí)代性的、職業(yè)性的機(jī)會(huì),對我們每個(gè)人都有深遠(yuǎn)的影響。
最后:可以加入奇績社區(qū);創(chuàng)業(yè)九死一生;一個(gè)創(chuàng)業(yè)項(xiàng)目,它更需要的不是錢,是算力,它更需要的是數(shù)據(jù)等等。
附錄:
①范式:一種理論體系、理論框架。
?
②第一性原理:不是通過類比來推理,是回到本質(zhì)。
?
③空間計(jì)算:空間計(jì)算技術(shù)可以參照現(xiàn)實(shí)的物理世界構(gòu)建一個(gè)3D立體的數(shù)字世界。它是現(xiàn)實(shí)的物理世界與3D立體的數(shù)字虛擬世界之間的映射,以實(shí)現(xiàn)更廣泛的應(yīng)用和創(chuàng)新。
?
④通用智能必須擁有四個(gè)核心的緯度:第一是涌現(xiàn),第二是代理,第三是功能可見(affordence),第四是具身(embodiment),每一項(xiàng)代表什么我不太懂,沒有檢索出來,請大家補(bǔ)充。
?
⑤增強(qiáng)學(xué)習(xí)(Reinforcement Learning):一種機(jī)器學(xué)習(xí)方法,模型通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)策略,以最大化累積獎(jiǎng)勵(lì)。它類似于訓(xùn)練一個(gè)智能體,在嘗試不同的動(dòng)作后,根據(jù)環(huán)境的反饋調(diào)整策略,以獲得最好的結(jié)果。例如,訓(xùn)練一個(gè)機(jī)器人玩游戲,它通過不斷試錯(cuò)來學(xué)會(huì)如何取得更高的分?jǐn)?shù)。
無監(jiān)督學(xué)習(xí)(Unsupervised Learning):一種機(jī)器學(xué)習(xí)方法,模型從未標(biāo)記的數(shù)據(jù)中自動(dòng)學(xué)習(xí)模式和結(jié)構(gòu),無需人工標(biāo)簽。它探索數(shù)據(jù)的內(nèi)在關(guān)系,幫助揭示隱藏的模式和特征。例如,聚類算法可以將相似的數(shù)據(jù)點(diǎn)分組,無需預(yù)先告知模型每個(gè)群組的標(biāo)簽。
簡而言之,增強(qiáng)學(xué)習(xí)關(guān)注如何在交互中學(xué)習(xí)最佳決策,而無監(jiān)督學(xué)習(xí)關(guān)注從未標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)模式。
?
⑥預(yù)訓(xùn)練(Pretraining):在大型數(shù)據(jù)集上訓(xùn)練模型,使其學(xué)會(huì)語言結(jié)構(gòu)和常識(shí)。這樣的模型具有初步的語言理解能力,但還不夠具體或準(zhǔn)確。
微調(diào)(Fine-tuning):將預(yù)訓(xùn)練的模型在特定任務(wù)上進(jìn)行進(jìn)一步的訓(xùn)練,以使其適應(yīng)具體任務(wù)的要求。通過微調(diào),模型能夠在特定領(lǐng)域或任務(wù)中表現(xiàn)更出色。
泛化能力(Generalization):模型學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中獲得的知識(shí),能夠?qū)⑦@些知識(shí)應(yīng)用于從未見過的數(shù)據(jù)。良好的泛化能力意味著模型能夠在新情況下做出合理的預(yù)測或決策。
指令微調(diào)(Prompt Engineering):為了引導(dǎo)模型生成特定類型的回復(fù),我們可以通過設(shè)計(jì)清晰明確的指令來微調(diào)模型。這有助于控制模型的輸出,使其更符合特定任務(wù)的要求。
多模態(tài)(Multimodal)指的是在一個(gè)系統(tǒng)中融合了多種不同的信息來源或數(shù)據(jù)類型,如文本、圖像、語音等。多模態(tài)方法旨在將這些不同的數(shù)據(jù)類型結(jié)合起來,從而提供更豐富和全面的信息來增強(qiáng)系統(tǒng)的理解、分析和表達(dá)能力。
?
舉個(gè)例子:假設(shè)我們正在開發(fā)一個(gè)情感分析模型,用于判斷電影評論的情感是積極、消極還是中性。我們可以采取以下步驟:
預(yù)訓(xùn)練:使用大量的文本數(shù)據(jù)訓(xùn)練模型,使其學(xué)會(huì)一般的語言理解能力和情感表示。
微調(diào):將預(yù)訓(xùn)練的模型在情感分析任務(wù)的標(biāo)注數(shù)據(jù)集上進(jìn)行微調(diào),讓模型逐漸理解積極和消極評論的特點(diǎn)。
泛化能力:經(jīng)過微調(diào)的模型應(yīng)該能夠在未見過的電影評論上進(jìn)行情感分析,準(zhǔn)確判斷評論的情感,而不僅僅是記住訓(xùn)練數(shù)據(jù)中的例子。
指令微調(diào):如果我們希望模型根據(jù)不同的指令生成不同風(fēng)格的評論,我們可以設(shè)計(jì)特定的指令,如“寫一個(gè)積極的評論”或“寫一個(gè)消極的評論”,然后微調(diào)模型,使其根據(jù)指令生成相應(yīng)風(fēng)格的回復(fù)。
多模態(tài):多模態(tài)情感分析可以同時(shí)考慮文本和圖像內(nèi)容,從而更準(zhǔn)確地判斷情感狀態(tài)。
?
⑦Token :文本處理中的基本單位,可以是單個(gè)字符或單詞。在自然語言處理中,文本通常被拆分成多個(gè) Token,以便計(jì)算機(jī)能夠理解和處理。每個(gè) Token 代表了文本中的一個(gè)基本意義單位,可以是字母、數(shù)字、標(biāo)點(diǎn)符號(hào),或者是一個(gè)單詞。Tokenization 是將文本切分成 Token 的過程,為后續(xù)的文本處理和分析提供基礎(chǔ)。
?
⑧潛概念(Latent Concept)是指存在于數(shù)據(jù)中但不直接觀察到的抽象概念或特征,通常需要通過數(shù)據(jù)分析或模型來揭示。
子概念(Sub Concept)則是指在一個(gè)更大的概念之下,更具體或更細(xì)化的概念。
在許多數(shù)據(jù)分析和機(jī)器學(xué)習(xí)任務(wù)中,探索潛在的概念和子概念可以幫助我們更好地理解數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,從而支持更準(zhǔn)確的模型構(gòu)建和預(yù)測。
?
⑨“對齊”或“對齊研究”是指整合不同數(shù)據(jù)、模型或知識(shí),使它們協(xié)同工作以提高系統(tǒng)的效能和準(zhǔn)確性。這有助于確保各個(gè)組成部分相互協(xié)調(diào),共同完成任務(wù)。
?
舉例來說,考慮一個(gè)醫(yī)療診斷系統(tǒng)。系統(tǒng)需要結(jié)合病人的醫(yī)學(xué)歷史、實(shí)驗(yàn)室報(bào)告和醫(yī)學(xué)影像數(shù)據(jù),來提供準(zhǔn)確的診斷。在這種情況下,對齊研究會(huì)涉及將不同類型的數(shù)據(jù)進(jìn)行協(xié)調(diào),確保它們在同一語境下解釋。這可能包括將實(shí)驗(yàn)室數(shù)值與診斷文本對應(yīng),以及將醫(yī)學(xué)影像與病人歷史資料相聯(lián)系。通過對齊不同數(shù)據(jù),系統(tǒng)可以更準(zhǔn)確地進(jìn)行診斷,為醫(yī)生提供更好的決策支持。
?
⑩Softmax:一種數(shù)學(xué)函數(shù),通常用于將一組分?jǐn)?shù)(得分)轉(zhuǎn)換為概率分布。它將每個(gè)分?jǐn)?shù)轉(zhuǎn)化為一個(gè)介于 0 到 1 之間的值,使得所有值的總和為 1。Softmax 在分類問題中常用于輸出層,將模型的原始分?jǐn)?shù)映射為各個(gè)類別的概率,從而選擇概率最高的類別作為最終的預(yù)測結(jié)果。
?
?魯棒性:指的是系統(tǒng)對于干擾、噪聲、異常情況或不確定性的抵抗能力。一個(gè)魯棒性強(qiáng)的人工智能產(chǎn)品能夠在面對各種不良因素或未知情況下,仍然能夠保持穩(wěn)定、可靠的性能。這種性能的穩(wěn)定性和可靠性是確保產(chǎn)品在現(xiàn)實(shí)世界中實(shí)際應(yīng)用中有效運(yùn)行的關(guān)鍵要素。
?
?帶寬:通常指的是系統(tǒng)或網(wǎng)絡(luò)傳輸數(shù)據(jù)的能力,即單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量。高帶寬表示系統(tǒng)能夠更快地傳輸大量數(shù)據(jù),而低帶寬可能導(dǎo)致傳輸速度慢或數(shù)據(jù)丟失。在人工智能應(yīng)用中,帶寬的好壞會(huì)影響模型的訓(xùn)練和推理速度,數(shù)據(jù)的傳輸效率以及系統(tǒng)的響應(yīng)速度。
?
?buffer(緩沖區(qū))是一種臨時(shí)存儲(chǔ)區(qū)域,用于暫時(shí)保存數(shù)據(jù),以便在需要時(shí)進(jìn)行處理或傳輸。緩沖區(qū)可用于調(diào)整不同部分之間的速度差異,幫助平衡數(shù)據(jù)流,提高效率,并降低數(shù)據(jù)丟失的風(fēng)險(xiǎn)。在數(shù)據(jù)處理和傳輸過程中,緩沖區(qū)充當(dāng)了數(shù)據(jù)的中轉(zhuǎn)站,確保數(shù)據(jù)的平穩(wěn)流動(dòng)。
?
?API(Application Programming Interface)是一組定義了不同軟件組件之間如何相互通信和交互的規(guī)則和約定。它允許開發(fā)人員使用預(yù)定義的函數(shù)、方法或接口來訪問和操作其他軟件、服務(wù)或庫,而無需了解其內(nèi)部實(shí)現(xiàn)細(xì)節(jié)。API使不同的應(yīng)用程序能夠相互連接和集成,實(shí)現(xiàn)數(shù)據(jù)共享、功能擴(kuò)展和交互操作。
?
?數(shù)據(jù)體系
數(shù)據(jù)集(Dataset):數(shù)據(jù)集是指收集和組織起來用于訓(xùn)練、測試或評估人工智能模型的數(shù)據(jù)的集合。它可以包含文本、圖像、音頻等多種類型的信息。
語料(Corpus):語料是一個(gè)特定領(lǐng)域或語言的大量文本數(shù)據(jù)的集合,用于語言處理和自然語言處理任務(wù),如文本分析、情感分析等。
標(biāo)注系統(tǒng)(Annotation System):標(biāo)注系統(tǒng)是用于為數(shù)據(jù)集添加標(biāo)簽或注釋的工具或平臺(tái),以便訓(xùn)練和評估模型。它可以幫助標(biāo)注員對數(shù)據(jù)進(jìn)行分類、標(biāo)記實(shí)體、標(biāo)注情感等。
標(biāo)注工具(Annotation Tools):標(biāo)注工具是用于數(shù)據(jù)標(biāo)注的軟件應(yīng)用程序,可以提供界面和功能,使標(biāo)注員能夠高效地對數(shù)據(jù)進(jìn)行標(biāo)注。例如,對于圖像,標(biāo)注工具可以幫助勾畫邊界框、標(biāo)記對象等。
數(shù)據(jù)開發(fā)管線(Data Development Pipeline):數(shù)據(jù)開發(fā)管線是一系列步驟和流程,用于準(zhǔn)備、處理、清洗和轉(zhuǎn)換數(shù)據(jù),使其適用于訓(xùn)練和測試模型。它涵蓋從數(shù)據(jù)收集到模型訓(xùn)練的整個(gè)流程。
?
舉例說明:假設(shè)我們要開發(fā)一個(gè)情感分析模型,首先收集了大量社交媒體評論作為數(shù)據(jù)集。我們使用一個(gè)標(biāo)注系統(tǒng)來為評論添加情感標(biāo)簽(如正面、負(fù)面、中性),并使用標(biāo)注工具在圖像中標(biāo)記與情感相關(guān)的實(shí)體。然后,通過數(shù)據(jù)開發(fā)管線,對文本數(shù)據(jù)進(jìn)行預(yù)處理和向量化,將圖像數(shù)據(jù)進(jìn)行特征提取。最終,我們使用這個(gè)經(jīng)過處理的數(shù)據(jù)集來訓(xùn)練情感分析模型。
?
?模型體系
參數(shù)(Parameters):在人工智能模型中,參數(shù)是指用于調(diào)整模型行為和性能的可調(diào)整變量。通過調(diào)整參數(shù),可以改變模型的權(quán)重和偏差,從而影響其預(yù)測或生成的結(jié)果。
深度(Depth):在深度學(xué)習(xí)中,深度指的是神經(jīng)網(wǎng)絡(luò)的層數(shù)。較深的網(wǎng)絡(luò)通常具有更高的表達(dá)能力,可以學(xué)習(xí)到更抽象和復(fù)雜的特征,但也可能需要更多的計(jì)算資源。
模態(tài)(Modality):模態(tài)指的是不同類型的數(shù)據(jù)或信息,如文本、圖像、音頻等。多模態(tài)人工智能產(chǎn)品可以同時(shí)處理和分析多種不同模態(tài)的數(shù)據(jù),以提供更全面的理解和功能。
Token:在自然語言處理中,Token 是文本中的基本單位,可以是單詞、字符或子詞。Tokenization 是將文本分割成 Token 的過程。例如,句子 "I love AI!" 可以被分成三個(gè) Token:"I"、"love" 和 "AI"。
?
舉例說明:考慮一個(gè)多模態(tài)人工智能產(chǎn)品,用于分析電影評論。該產(chǎn)品可以同時(shí)處理文本評論和影評中的圖像截圖。模型的深度可以影響其對評論情感的準(zhǔn)確性,通過調(diào)整參數(shù)可以優(yōu)化模型的性能。在分析過程中,模型可以處理文本 Token 和圖像模態(tài),結(jié)合兩者的信息來判斷評論的情感。
?
?RDMA(Remote Direct Memory Access)是一種網(wǎng)絡(luò)通信技術(shù),允許不同計(jì)算機(jī)節(jié)點(diǎn)之間直接共享內(nèi)存數(shù)據(jù),而無需經(jīng)過中間步驟。這種高效的通信方式可以加速數(shù)據(jù)傳輸,提高系統(tǒng)性能,特別適用于需要大規(guī)模數(shù)據(jù)交換的人工智能訓(xùn)練和計(jì)算任務(wù)。
?
?訓(xùn)練體系
指令調(diào)(Hyperparameter Tuning):在人工智能產(chǎn)品中,指令調(diào)指的是調(diào)整模型的超參數(shù),這些參數(shù)在模型訓(xùn)練前需要手動(dòng)設(shè)置,如學(xué)習(xí)率、批量大小等。通過調(diào)整超參數(shù),可以優(yōu)化模型性能。
正則化(Regularization):正則化是一種技術(shù),用于減小模型的過擬合風(fēng)險(xiǎn)。它在訓(xùn)練過程中向模型的損失函數(shù)添加額外項(xiàng),限制模型權(quán)重的大小,從而提高泛化能力。
Epoch:在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),Epoch 表示將整個(gè)訓(xùn)練數(shù)據(jù)集用于訓(xùn)練的一輪迭代。多個(gè) Epoch 可以提高模型的性能。例如,訓(xùn)練模型時(shí)使用了 10 個(gè) Epoch,表示將訓(xùn)練數(shù)據(jù)集完整地用于訓(xùn)練了 10 次。
通用圖表庫:通用圖表庫是一種工具,用于可視化數(shù)據(jù)和結(jié)果。它允許用戶創(chuàng)建圖表、圖形和圖像,幫助分析和展示人工智能模型的性能和結(jié)果。
?
舉例說明:考慮一個(gè)人工智能產(chǎn)品,用于圖像分類任務(wù)。在訓(xùn)練過程中,我們使用指令調(diào)來優(yōu)化學(xué)習(xí)率和批量大小,以達(dá)到更好的訓(xùn)練效果。同時(shí),我們還應(yīng)用了正則化技術(shù),限制模型權(quán)重的大小,以防止過擬合。我們進(jìn)行了 20 個(gè) Epoch 的訓(xùn)練,對數(shù)據(jù)進(jìn)行多輪迭代,最終使用通用圖表庫創(chuàng)建圖表,展示模型的訓(xùn)練曲線和分類準(zhǔn)確率。
?
?知識(shí)蒸餾是一種技術(shù),用于將一個(gè)大型、復(fù)雜的模型的知識(shí)傳遞給一個(gè)更簡單的模型,以提高后者的性能。通過讓簡單模型學(xué)習(xí)復(fù)雜模型的預(yù)測分布或中間表示,可以獲得更好的泛化能力和效果。
?
舉例說明:考慮一個(gè)圖像分類任務(wù),我們有一個(gè)復(fù)雜的深度卷積神經(jīng)網(wǎng)絡(luò)模型,它在大量數(shù)據(jù)上訓(xùn)練得很好?,F(xiàn)在我們想要在資源有限的設(shè)備上部署一個(gè)更輕量級的模型。我們可以使用知識(shí)蒸餾技術(shù),讓輕量級模型學(xué)習(xí)復(fù)雜模型的預(yù)測分布。這樣,輕量級模型就能夠獲得復(fù)雜模型的“知識(shí)”,在保持較小尺寸的同時(shí),獲得與復(fù)雜模型類似的性能,例如更高的分類準(zhǔn)確率。知識(shí)蒸餾使得我們可以在計(jì)算和存儲(chǔ)資源有限的情況下,仍然獲得強(qiáng)大的模型性能。
?
?Web3:數(shù)字化中的Web3是對互聯(lián)網(wǎng)的新一代演化的描述,強(qiáng)調(diào)去中心化、區(qū)塊鏈技術(shù)和加密貨幣等概念。它旨在賦予用戶更多的控制權(quán)和隱私,并創(chuàng)建更開放、透明和可互操作的在線環(huán)境。Web3不僅關(guān)注信息的交流,還強(qiáng)調(diào)數(shù)字資產(chǎn)、智能合約和去中心化應(yīng)用程序的發(fā)展。
?
?"Embedding"是一種將高維數(shù)據(jù)映射到低維空間的技術(shù),以便更好地表達(dá)和處理數(shù)據(jù)。它能夠?qū)?fù)雜的信息表示為向量,從而使模型能夠更好地理解和處理數(shù)據(jù),例如在自然語言處理中,將單詞映射為連續(xù)向量,使得模型能夠更好地理解單詞的語義關(guān)系。這種技術(shù)有助于提高模型的性能和效率。
?
?Pinecone是一家專注于推薦系統(tǒng)和搜索引擎的人工智能公司。他們提供高性能的向量搜索引擎,幫助企業(yè)通過快速、精確的相似性搜索來提供更好的用戶體驗(yàn)。Pinecone的技術(shù)可應(yīng)用于各種領(lǐng)域,如電子商務(wù)、內(nèi)容推薦和數(shù)據(jù)分析等。
?
?Zilliz是一家專注于圖形數(shù)據(jù)庫和分析的人工智能公司。他們開發(fā)了一款名為"Milvus"的開源向量數(shù)據(jù)庫,可用于高效存儲(chǔ)和查詢大規(guī)模向量數(shù)據(jù),支持多種應(yīng)用,包括圖像搜索、相似性分析和推薦系統(tǒng)。Zilliz的技術(shù)有助于加速復(fù)雜數(shù)據(jù)的檢索和分析,提升了各種人工智能應(yīng)用的性能。
?
?科學(xué)的第四范式指的是利用數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)等手段來進(jìn)行科學(xué)研究,以更深入、高效地探索和理解現(xiàn)象,從而推動(dòng)科學(xué)領(lǐng)域的創(chuàng)新和進(jìn)步。
科學(xué)的第五范式是在第四范式的基礎(chǔ)上,通過協(xié)同、互聯(lián)網(wǎng)和社會(huì)化的方式,將科學(xué)家、數(shù)據(jù)分析師、工程師等各領(lǐng)域人才連接起來,實(shí)現(xiàn)更廣泛的合作、共享和交流,以加速科學(xué)發(fā)現(xiàn)和解決復(fù)雜問題。
(注:附錄里的大部分內(nèi)容是咨詢ChatGPT生成的)