IDEA研究院沈向洋:在GPT尚未解決的問題中,尋找大模型新機遇
"懂語言者得天下。"
本文為IPO早知道原創(chuàng)
作者|蘇打
11月22日,AI與數(shù)字經(jīng)濟領(lǐng)域一年一度的科創(chuàng)盛會,2023 IDEA大會在深圳舉行。IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋在會上發(fā)表主旨演講,發(fā)布IDEA研究院的重磅研產(chǎn)結(jié)晶與市場化成果;在大咖云集的論壇環(huán)節(jié),多位領(lǐng)軍科學(xué)家、企業(yè)家、創(chuàng)業(yè)者同臺論道,碰撞“學(xué)研產(chǎn)投”靈感。
現(xiàn)場,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋從技術(shù)創(chuàng)新、技術(shù)創(chuàng)業(yè)、技術(shù)驅(qū)動新產(chǎn)業(yè)三個角度,介紹了IDEA研究院在AI新篇章下,對科創(chuàng)的實踐與思考。
會上,沈向洋還發(fā)布《低空經(jīng)濟發(fā)展白皮書——深圳方案》,吹響IDEA勇闖低空無人區(qū)的號角。
以下為沈向洋演講實錄(有刪節(jié)):
很多從國外回來的人都跟我講,深圳是最像美國硅谷的地方,充滿著創(chuàng)新創(chuàng)業(yè)的熱情。而這里也是IDEA誕生的地方。我們發(fā)展了三年,到今天大概有450人這樣一個規(guī)模,也有個研究中心,做出了很多數(shù)字經(jīng)濟和人工智能方面的業(yè)績。
IDEA研究院這些年輕人們的愿景,是希望通過這一次的努力創(chuàng)新,創(chuàng)造偉大的企業(yè)來推動數(shù)字經(jīng)濟的發(fā)展。Transformer架構(gòu)的開山之作《Attention is All You Need》,八名作者如今全部在創(chuàng)業(yè)。很多我的前同事也找到我說,Harry,我想創(chuàng)業(yè)。
所以,IDEA研究院一直致力于創(chuàng)造一個架構(gòu),讓科學(xué)家頭腦、企業(yè)家素質(zhì)、創(chuàng)業(yè)者精神能夠自由碰撞,嚴謹產(chǎn)出。成立剛滿三年,IDEA研究院也帶來一批已經(jīng)或正在走向大市場的優(yōu)秀創(chuàng)業(yè)項目。
很多人相信,科學(xué)的發(fā)展是和文藝復(fù)興連在一起的,但我認為過去100年最了不起的技術(shù),是計算的技術(shù)。人工智能發(fā)展到今天,對人類一個最重要的影響是的生產(chǎn)力。如今,人工智能的進步突飛猛進,在語音識別等領(lǐng)域已基本接近人類智能。但技術(shù)的進步并非突然發(fā)生,而是一個長期的過程。我們作為一個科研機構(gòu),也具備這樣的耐心。
今天做科研,究竟要做什么?GPT4代表的大模型水平已經(jīng)是全球領(lǐng)先,我們就問自己幾個問題,還有什么機會?到底還能做什么?這個過程中,我們總結(jié)出一些不一樣的技術(shù)路線。
反向思考,先將視覺能力做到極致
實際上,做科研是在大家都看到的問題里,找到大家都找不到的方法。例如,GPT-4的能力已經(jīng)非常強大,而我們找到其中的一個機會,多模態(tài)仍然是一個遠遠沒有解決的問題。
多模態(tài)中,除文本以外,首先需要挖掘的是圖像和計算機視覺。目前,GPT-4代表著幾乎全球最先進的多模態(tài)技術(shù),它可以精準描述一碗麻婆豆腐,也可以通過分析,計算出一桌啤酒每個人share的價格。但它仍舊缺乏一些東西,比如物體檢測和定義的功能。而這些,恰恰是我們的機會所在。
我們想走一條不一樣的技術(shù)路線——我們認為,物體級別的理解(object-level understanding),檢測、分割、識別,是連接語言和視覺這兩種最重要的模態(tài)的基石。比如一張辦公室圖片中,我們可以通過檢測,單獨分離出一個凳子,然后將其替換成一把新的凳子。這項技術(shù)的應(yīng)用場景非常廣闊,比如應(yīng)用到汽車檢測中,可以精準鎖定車前燈、車后燈、擋風玻璃等,類似這樣的小問題,此前的檢測是非常困難的。
其中一個重要的概念,是今天想跟大家介紹的視覺提示。我們今天也會同步發(fā)布這一T-Rex模型,T-Rex是一個開箱即用的模型,無需重新訓(xùn)練或微調(diào),即可檢測模型在訓(xùn)練階段從未見過的物體。目前上線的是PC版,手機版也會很快推出。視覺提示可以作為語言描述補充,比如我們希望提煉出一只蘋果中的紅色部分,利用檢測技術(shù)的實現(xiàn)效果會比語言描述更自然、更準確。
這又引申出另一個問題,數(shù)據(jù)打包還有沒有機會?
給不同的產(chǎn)品配備不同的模型是不現(xiàn)實的,而且還要面臨問題碎片化的挑戰(zhàn),所以我們呼喚一個通用視覺大模型的出現(xiàn)。目前以GPT為代表的主流路線,是通過語言能力增強視覺能力,但我們想做不太一樣的事情——反過來想,是不是應(yīng)該先把視覺能力做到極致?當然這件事非常難,但我們充滿信心,也下定決心下場去做改變視覺的大問題。
解決大模型的“一本正經(jīng)胡說八道”
目前的大模型由于整體采用數(shù)據(jù)驅(qū)動,基本上可以把它想象成是一個統(tǒng)計的工具。這就導(dǎo)致其中出現(xiàn)的一個最大問題:如何證明。目前的大模型還是不擅長深度推理,看似自信的分析實際卻不可溯源。而且,大模型仍舊無法實現(xiàn)實時更新。
針對“大模型一本正經(jīng)胡說八道”這個問題,IDEA研究院幾個團隊綜合研究給出的一條思路,是令大模型和有結(jié)構(gòu)的知識之間形成互補。我們做了一些非常好的工作,即將大模型的優(yōu)勢和知識圖譜的優(yōu)勢相融合來進行深度推理。
按照我們研究院郭健團隊研發(fā)的“思維圖譜”,你可以簡單把它想成一個小的機器人智能體,在知識圖譜龐大的海洋里搜索,排除掉最不可能的一些節(jié)點,完成一條長的推理路徑。
我們希望大模型的推理是思考是有深度的,不光是劣根數(shù)據(jù)劣根的圖表,更重要的是這些數(shù)據(jù)背后的邏輯,這個時候背后需要一個龐大的知識圖譜。但光有圖譜的推理也是不夠的,因為圖譜的推理最終要給人提出好的建議,所以我們通過技術(shù),令其能夠進行精準定點的觸達,形成一個分析報告。
未來這一技術(shù)的落地領(lǐng)域?qū)⒎浅V泛,包括政務(wù)、教育、法律、咨詢等,均可實現(xiàn)新的改變。
同時,為解決知識可追溯的問題,IDEA研究院團隊通過形成多層的閉環(huán),在知識內(nèi)循環(huán)的基礎(chǔ)上,再通過人的交互形成一個外層循環(huán),從而不斷對問答進行修正,讓大模型越來越聰明。
懂語言者得天下
過去十幾年,我一直鼓勵大家的一個科研方向是語言,懂語言者得天下。而且編程語言是整個計算機大綱里面非常重要的一個技術(shù)。實際上,我們國家在編程語言整個方向的話非常不夠,中國人編寫自己的編程語言,歷史上來看并不多。
真正最受歡迎的通用語言,肯定是在每一個歷史時代下,比如大型機時代、PC機時代。現(xiàn)在大家慢慢看到,今天最了不起的方案就是做智能云和邊緣智能。
所以現(xiàn)在的語言,基本上是一個人和機器交互的語言,未來實際上會變成人和AI的交互,當然也可以把機器放在里面。其中的新機會,是可以針對這些變化開發(fā)一些新語言的東西,來鏈接自然語言到最后機器碼實現(xiàn)的過程。
IDEA已經(jīng)有兩個語言類項目,一個是洪波帶領(lǐng)、由中國團隊開發(fā)的編程語言MoonBit月兔,于今年8月在Hacker News(由Y Combinator創(chuàng)辦的知名科創(chuàng)社區(qū))登上頭版頭條;另一個是區(qū)塊鏈并行智能合約語言GCL。GCL旨在打造區(qū)塊鏈系統(tǒng)上的最優(yōu)解決方案。不同于傳統(tǒng)的“數(shù)據(jù)跟著代碼跑”的方案,GCL設(shè)計了“代碼執(zhí)行跟著數(shù)據(jù)跑”的編程模型,以減少因數(shù)據(jù)傳遞造成的麻煩。
像微軟也一直在推動低代碼,最低的低代碼語言實際上就是今天大模型,大模型來了以后,對整個行業(yè)方方面面的沖擊都是巨大的。我是在去年下半年的時候認識到這個問題后,覺得未來和以前真的會不一樣,很多知識你都不需要背,最重要的事情是問問題。
再給大家總結(jié)一下我最喜歡的這句話,懂語言者得天下。實際上我開始推動這件事情的時候,最近這兩年的大語言模型基本還沒有發(fā)生,用我自己的理解就是,人類的秩序最后實際上都是嵌入(embed)的一個原理。