沈向洋:內(nèi)容生成實現(xiàn)「一言勝千圖」,創(chuàng)新與資本應有「新范式」

"市場化是創(chuàng)新投資的最大主體。"
本文為IPO早知道原創(chuàng)
作者|蘇打
“過去我們常說一圖勝千言。而如今AI領(lǐng)域的內(nèi)容生成,已經(jīng)可以實現(xiàn)‘一言勝千圖’。人類講一句話,AI即可生成無數(shù)多張非常漂亮的照片,而且栩栩如生。”
11月22日,在深圳舉行的2022 IDEA大會上,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋坦言,自身研究計算機視覺很多年,但“三、五年前跟我講大概能做出這樣的結(jié)果我是不會相信的”。
他表示,人工智能最近的蓬勃發(fā)展,尤其是預訓練大模型發(fā)展非常令人震撼,其整體的規(guī)模和速度都到了不可忽視的地步?!斑^去十年,新一代人工智能的浪潮,特別在深度學習的推動下整個進展非???。其中,大數(shù)據(jù)和大算力是背后兩大動力。精準的算法以及新的大模型出現(xiàn),令人工智能發(fā)展到新高潮。”
在談及創(chuàng)新與資本之間的“新范式”時,他認為,“市場化是最大的主體。但政府主導的研發(fā)有非常重要的引導作用、指向性作用?!?/p>
“趨于早期的基礎創(chuàng)新,包括使命驅(qū)動型的創(chuàng)新,出資方主要是政府,當然也包括一些非盈利機構(gòu)。而風險型投資是冒險者的游戲。但如果沒有基礎型創(chuàng)新和使命型創(chuàng)新的鋪墊的話,風險型創(chuàng)新也是很困難的”。
從一圖勝千言到一言勝千圖
在太乙模型中輸入“夢回江南”,便可以自動生成一張非常有中國特色的江南山水畫。今年11月份剛剛同時發(fā)布純中文和中英文版本的太乙Stable Diffusion,目前在Hugging face榜單的100多個Stable Diffusion已經(jīng)排名第三,三個星期前的下載量已經(jīng)突破10萬。
“人工智能的內(nèi)容生成,用一句話來概括,以前講一圖勝千言,今天是一言勝千圖。在我看來,其背后是人工智能尤其是預訓練大模型的發(fā)展規(guī)模和速度,都已經(jīng)到我們不可忽視的地步。”
沈向洋認為,其背后有三個原因:巨大的數(shù)據(jù)量、龐大的算力、新的深度學習算法。“其中使用的Diffusion的模型可以在互聯(lián)網(wǎng)上找到巨大量的圖像、標注以及語言之間的數(shù)據(jù)隊,這一結(jié)果代表了今天人工智能能夠達到的高度和方向”。
以人工智能為代表的工具可以被應用到廣泛的行業(yè)中,成為數(shù)字經(jīng)濟中數(shù)字生產(chǎn)力的底層?!按蠹铱梢韵胂螅蠊?、小公司、初創(chuàng)公司他們可以拿這個做什么。其中最重要的是可以幫助藝術(shù)家,幫助每個人有藝術(shù)創(chuàng)作沖動的時候做一些事情”。
曾有研究發(fā)現(xiàn),達芬奇的畫作很多,其實并非他一人所做,而是帶了很多徒弟畫出來的,但后人其實看不出來達芬奇的畫與徒弟的畫質(zhì)量有何區(qū)別。
未來,人工智能就是每個人的“小徒弟”,而每個人都又機會成為“達芬奇”,從而真正提高數(shù)字生產(chǎn)力。
他坦言,直到今天,大數(shù)據(jù)、人工智能還是一個記憶和闡釋的過程,尚未具備人的理解和認知的過程。比如,讓人工智能去畫出宇航員騎在馬上可以實現(xiàn),但換成馬騎在宇航員的身上結(jié)果就不太對。
“但這樣一些瑕疵并不妨礙技術(shù)和應用在不斷迭代、不斷進步。因為只有有反饋,我們才能閉環(huán)、才能有進步、才能有創(chuàng)新。今天的預訓練大模型已經(jīng)非常了不起”。
從分而治之到合而解之
沈向洋認為,當前人工智能的第二個技術(shù)趨勢方向,是對新的研究方法變革,“我把它稱為從分而治之到合而解之”。
中文計算機領(lǐng)域中重要的一個方法是divide and conquer,即解一個問題要從小到大,然后把小塊拼起來,叫做divide and conquer。
“所以以前計算機科學研究隔行如隔山。十年前,學計算機視覺和學自然語言處理的人基本上老死不相往來,大家都不太清楚對方在做什么。但今天非常不一樣,有了深度學習后,這些大模型把各個環(huán)節(jié)的人都集合起來,大家今天都是用大模型方法來做這件事”。
他非常認同“圖像即外語”這一說法。把一張圖想象成外語,同時也是一種語言。如此一來,所有的NLP里的方法論和成果,都可以應用在計算視覺上。幾年前,谷歌研究院曾提出Vision Transformer,成為自然語言處理領(lǐng)域非常出色的成績——研究員將圖像切成16×16的小圖像,然后連在一起,如同一串字符,再把Transformer的方法用進去。
在此基礎上,IDEA研究院將Vision Transformer體系用到計算機視覺里最重要一個問題——目標檢測。
“一旦做到目標檢測,計算機便可以進行目標跟蹤、目標分割。未來可以有非常多行業(yè)應用的巨大機會,比如醫(yī)療檢測、自動駕駛等?!?/p>
如今,IDEA相關(guān)研究團隊將近幾年的預訓練大模型與全世界最先進的階段性新理論與算法相連接,在國際排名榜上“霸榜”已有半年之久,檢測出來的運動物體、靜止物體都非常精準,未來下游產(chǎn)業(yè)將有非常廣闊的應用前景。
“這件事情給我的震撼不僅僅是由原來的科研方法從小到大變成現(xiàn)在新的科學方法從大到小,它對人工智能、計算機領(lǐng)域的沖擊,更大的沖擊是這種研究的方法論、深度學習,它對科學研究的沖擊會更加大。”沈向洋坦言。
他表示,未來將選擇一些具體方向,做更多工具,幫助科學家們做更好的工作。目前,其已與清華大學聯(lián)手開展一些新聞方面的工作,“相信很快會有一些非常好的成果向大家報告”。
從重視計算結(jié)果到重視過程
無論人工智能還是其他技術(shù),其發(fā)展過程中都需要不斷回看市場和社會需求的反饋。比如5G技術(shù)推出后,在應用上推動哪些新方向的進展?!笆袌龅耐苿臃浅4?,只要有了不起的應用,這些聰明的人、聰明的錢就會沖進去”。
沈向洋人認為,從馮諾依曼結(jié)構(gòu)開始,計算就是一個工具,完成的事情是掌握工具的人?;ヂ?lián)網(wǎng)出現(xiàn)后,APP被是掌握在互聯(lián)網(wǎng)的平臺,但平臺是一個“黑盒子”,如果讓它變得透明,可信可解釋,就需要有一種新的計算體系來解決問題。
此前,業(yè)內(nèi)大多用密碼學的解法,比如聯(lián)邦學習。但IDEA選擇了一條不一樣的技術(shù)路線——做硬件。
2021年,研究院曾推出過SPU(Secure Processing Unit)樣機,今年已經(jīng)與很多銀行達成合作推廣使用。
如今,AI領(lǐng)域的安全,很多公司都已經(jīng)開始著手進行。比如英特爾在CPU中物理隔離出SGX?!暗覀兊目捶ㄊ?,應該拿出來專門做一個芯片。如果要做這件事情,安全體現(xiàn)在各個方面,有安全、可信、啟動,開機時就要安全,安全運行的容器,運行的過程要安全,還要有一個安全虛擬的操作?!?/p>
沈向洋介紹到,這樣一來,硬件可以具備好的功能,也可以與很多現(xiàn)有的軟件解法進行結(jié)合,比如與聯(lián)邦學習一起,與微眾合作,可以將聯(lián)邦學習的性能提高很多。
創(chuàng)新與資本的「新范式」
現(xiàn)場,沈向洋嘗試解釋創(chuàng)新與資本之間應該具備何種范式。
“要理解創(chuàng)新這件事情,要對創(chuàng)新資本這個范式做一些分析和描述。因為在實際運行中,我們看到的都是一些具體技術(shù)的突破、具體商業(yè)的成功、哪個公司又上市了等等。很多過程當中有很多不確定性的原則,它慢慢的融入到這個組織真正運營的經(jīng)驗里面,沉淀到組織的文化里面,我今天嘗試著看能不能填補這樣的空白?!?/p>
他認為,創(chuàng)新有四種類型:基礎型創(chuàng)新、使命型創(chuàng)新、風險型創(chuàng)新、產(chǎn)品型創(chuàng)新。
在創(chuàng)新過程中,“要搞清楚誰是真正的參與者、誰是真正的貢獻者”,以及這些參與者和貢獻者是通過一個什么樣的投資回報和資本的模型,能夠聯(lián)結(jié)在一起。資本的模型也有很多種,政府的、市場的、短期的、長期的、盈利導向型的、非盈利的。

“這些投資里面,市場化才是最大的主體。2020年,美國的研發(fā)預算,公司、市場的投入為75%,政府的投入僅占9.4%。但政府主導的研發(fā)雖然在絕對數(shù)量上遠遠低于市場主導的,?但它有個非常重要的引導作用、指向性作用。”
他表示,趨于早期的基礎創(chuàng)新,包括使命驅(qū)動型的創(chuàng)新,出資方主要是政府,當然也包括一些非盈利機構(gòu)。而風險型投資是冒險者的游戲。但如果沒有基礎型創(chuàng)新和使命型創(chuàng)新的鋪墊的話,風險型創(chuàng)新也是很困難的。
現(xiàn)場,沈向洋重點介紹了產(chǎn)品創(chuàng)新型。絕大多數(shù)的前期平時幾乎看不到聲響,因為通常公司里面大多數(shù)R&D的錢都必須要保持現(xiàn)有產(chǎn)品的不斷完善,以及滿足用戶的新需求。
“大公司如何創(chuàng)新,這是一個永恒的話題。最后公司不成功、不存在了,其他什么都沒有了。要做百年老店,必須創(chuàng)新,而且只有自己顛覆自己,只有積極擁抱顛覆式創(chuàng)新,才能做這件事情?!鄙蛳蜓蟊硎?。