同盾李曉林:解決時(shí)代的困境,知識(shí)將成為AI3.0的“第四要素”
盡管已經(jīng)離開(kāi)講臺(tái),李曉林身上仍留著些許象牙塔內(nèi)的痕跡。
之前,他是學(xué)界精英,佛羅里達(dá)大學(xué)終身教授;現(xiàn)在,他是同盾科技人工智能研究院的院長(zhǎng)。平時(shí)與人交談時(shí),他語(yǔ)言溫和,但一旦涉及專業(yè)問(wèn)題時(shí),立即進(jìn)入學(xué)者氣場(chǎng)。
在談及知識(shí)聯(lián)邦相關(guān)話題時(shí),這種轉(zhuǎn)變尤為明顯。
這是他帶領(lǐng)研究院伙伴們提出的理論體系,希望一種更安全的方式,利用好現(xiàn)有數(shù)據(jù),搭建一個(gè)開(kāi)放的智能大腦,最終推動(dòng)人工智能3.0時(shí)代的到來(lái)。

打破數(shù)據(jù)孤島
上世紀(jì)80年代,中國(guó)人工智能專家姚期智曾提出過(guò)“百萬(wàn)富翁”假設(shè):兩個(gè)百萬(wàn)富翁在街頭相遇,他們想知道誰(shuí)更有錢,但是出于隱私,又不想讓對(duì)方知道自己到底擁有多少財(cái)富。
姚期智提出用“多方安全計(jì)算”方式來(lái)解決這一問(wèn)題。如今的人工智能領(lǐng)域,正面臨類似的困境,人工智能的發(fā)展進(jìn)步,離不開(kāi)大數(shù)據(jù),但大家對(duì)數(shù)據(jù)邊界越發(fā)重視,又不愿數(shù)據(jù)離開(kāi)本地。
在李曉林教授看來(lái),這是AI 2.0時(shí)代必須要解決的困境。他認(rèn)為,我們當(dāng)下經(jīng)歷的人工智能熱潮,興起于21世紀(jì)第二個(gè)十年初期,屬于AI 2.0時(shí)代,依托于深度學(xué)習(xí)理論。
AI 2.0的快速發(fā)展,主要依靠三個(gè)因素:算法、算力和大數(shù)據(jù)。深度學(xué)習(xí)提供算法,CPU和GPU提供算力,信息社會(huì)則儲(chǔ)存和提供足夠的數(shù)據(jù)。
李曉林舉例,谷歌的AlphaGo之所以能實(shí)現(xiàn)快速進(jìn)化,便在于它一共學(xué)習(xí)了3000萬(wàn)盤已有的棋局,自己跟自己又下了3000萬(wàn)盤。
這種依靠海量數(shù)據(jù)訓(xùn)練的人工智能模式,經(jīng)過(guò)初期野蠻發(fā)展后,正面臨無(wú)數(shù)據(jù)可用的困境。
原來(lái)主要來(lái)自兩個(gè)方面,首先是數(shù)據(jù)不足,擁有海量數(shù)據(jù)的往往只有少數(shù)行業(yè),大多數(shù)領(lǐng)域的數(shù)據(jù)往往有限,或者數(shù)據(jù)質(zhì)量較差。其次則是“數(shù)據(jù)孤島”和數(shù)據(jù)安全使得數(shù)據(jù)共享越發(fā)困難。數(shù)據(jù)在不同公司間,甚至同一家公司內(nèi)部,都難以實(shí)現(xiàn)無(wú)障礙流動(dòng)。
而數(shù)據(jù)帶來(lái)的隱私暴露或數(shù)據(jù)泄露,使得加強(qiáng)保護(hù)數(shù)據(jù)安全和隱私保護(hù),成為各國(guó)政府的共同選擇。
2018年5月25日,歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)正式生效,這個(gè)堪稱目前世界范圍內(nèi)最嚴(yán)格的用戶數(shù)據(jù)保護(hù)條款,允許用戶對(duì)自己數(shù)據(jù)擁有完全自主的權(quán)利。而美國(guó)和中國(guó)正在制定類似的隱私和安全法案。
這些現(xiàn)象都預(yù)示著,AI 2.0時(shí)代,似乎即將因?yàn)閿?shù)據(jù)孤島與數(shù)據(jù)安全,陷入雙重困境。在同盾科技所在的金融科技領(lǐng)域,這一問(wèn)題尤為重要。銀行等金融機(jī)構(gòu),迫切想要提高風(fēng)控水平,卻又對(duì)數(shù)據(jù)安全極端看重,甚至將其作為立身之本。
2019年春天,李曉林加盟同盾科技后,出任合伙人、人工智能研究院院長(zhǎng),試圖通過(guò)“知識(shí)聯(lián)邦”技術(shù),來(lái)解決這一問(wèn)題。
當(dāng)年冬天的網(wǎng)易未來(lái)大會(huì)上,同盾首次提出知識(shí)聯(lián)邦概念,它不是單一技術(shù)方法,而是一套層次化技術(shù)框架體系:將散落于不同機(jī)構(gòu)或個(gè)人的數(shù)據(jù)聯(lián)合起來(lái),轉(zhuǎn)換成有價(jià)值的知識(shí),并在聯(lián)合過(guò)程中采用安全協(xié)議保護(hù)數(shù)據(jù)隱私。
這一理論提出后發(fā)展迅速,已經(jīng)成長(zhǎng)為國(guó)內(nèi)聯(lián)邦學(xué)習(xí)五大代表流派之一。
搭建數(shù)字技術(shù)生態(tài)
2017年,為保障數(shù)據(jù)交換時(shí)的信息安全,保護(hù)個(gè)人隱私,谷歌公司的科學(xué)家在一篇文章里首次提出聯(lián)邦學(xué)習(xí)概念。理論提出后不久,國(guó)內(nèi)各互聯(lián)網(wǎng)公司紛紛搭建團(tuán)隊(duì),投入相關(guān)研究。
李曉林說(shuō),硅谷的競(jìng)爭(zhēng)速度更像是古代戰(zhàn)場(chǎng):你來(lái)一劍,我捅一刀,大家排兵布陣慢慢打。而在中國(guó),“基本是赤膊角斗,相當(dāng)激烈”。
根據(jù)國(guó)內(nèi)媒體統(tǒng)計(jì),目前聯(lián)邦學(xué)習(xí)在國(guó)內(nèi)已經(jīng)形成“五大流派”,分別是微眾銀行主打的聯(lián)邦學(xué)習(xí),螞蟻金服主攻的共享智能,平安科技的聯(lián)邦智能,京東數(shù)科開(kāi)展的異步聯(lián)邦學(xué)習(xí)研究,以及同盾科技推出的知識(shí)聯(lián)邦理論體系。
要在多方競(jìng)爭(zhēng)中占據(jù)一席之地,無(wú)疑需要具備獨(dú)特優(yōu)勢(shì)。李曉林指出,知識(shí)聯(lián)邦比聯(lián)邦學(xué)習(xí)的范疇更大、更系統(tǒng),更有層次,“聯(lián)邦學(xué)習(xí)是知識(shí)聯(lián)邦的一個(gè)子集。”
知識(shí)聯(lián)邦作為一套技術(shù)框架體系,與聯(lián)邦學(xué)習(xí)、區(qū)塊鏈、隱私計(jì)算、安全多方計(jì)算等其它技術(shù)領(lǐng)域都緊密相關(guān)。這些單一技術(shù),在知識(shí)聯(lián)邦的不同層面各自發(fā)揮作用,共同服務(wù)于數(shù)據(jù)“可用不可見(jiàn)”的大目標(biāo)。
同盾發(fā)布的知識(shí)聯(lián)邦白皮書顯示,知識(shí)聯(lián)邦具有三大優(yōu)勢(shì):第一是全樣本觸達(dá)。聯(lián)邦后機(jī)構(gòu)間的數(shù)據(jù),雖然各自為所有者控制,由于可以觸達(dá)更多的數(shù)據(jù),其性能甚至?xí)骄S度有限數(shù)據(jù)的中心化聚集方式。
第二是數(shù)據(jù)不動(dòng)模型動(dòng)。聯(lián)邦后的原始數(shù)據(jù)保留在本地,計(jì)算和學(xué)習(xí)也發(fā)生在本地,中心節(jié)點(diǎn)僅對(duì)參與方模型知識(shí)進(jìn)行安全的聚集。弱中心化模式達(dá)成了效率和安全之間的平衡,尤其適合在強(qiáng)監(jiān)管行業(yè)應(yīng)用。對(duì)銀行等金融機(jī)構(gòu)來(lái)說(shuō),知識(shí)聯(lián)邦的應(yīng)用前景尤為廣闊。
第三是知識(shí)也可以安全的共享融合。比如參與方通過(guò)NLP構(gòu)建本地的知識(shí)圖譜和各種網(wǎng)絡(luò)節(jié)點(diǎn)的關(guān)系,再通過(guò)知識(shí)聯(lián)邦來(lái)構(gòu)建更完整的虛擬圖譜,這樣既能幫助識(shí)別欺詐團(tuán)伙,又能提升企業(yè)征信的風(fēng)控模型。人工的知識(shí)也可以融入其中(human in the loop),自主自適應(yīng)的構(gòu)建和融合多源知識(shí),提煉出最有效的洞見(jiàn)來(lái)做智能分析與決策。
李曉林說(shuō):“在知識(shí)聯(lián)邦的模式下,模型訓(xùn)練時(shí)每個(gè)銀行和金融機(jī)構(gòu),各自的數(shù)據(jù)不需對(duì)外輸出,甚至連模型的參數(shù)都不用給到對(duì)方,只需要將模型梯度的變化加密后在密文空間里安全的聚合。這樣攻擊者不能反推出源數(shù)據(jù)。”
基于知識(shí)聯(lián)邦理論體系,同盾科技推出了工業(yè)級(jí)應(yīng)用產(chǎn)品智邦平臺(tái)(iBond),通過(guò)建立相應(yīng)的任務(wù)聯(lián)盟,解決不同應(yīng)用場(chǎng)景需求。
在2020年10月舉辦的全球人工智能大會(huì)智能金融高峰論壇上,同盾聯(lián)合浙江大學(xué)、復(fù)旦大學(xué)、百度大數(shù)據(jù)實(shí)驗(yàn)室、360集團(tuán)、平安科技、等學(xué)界業(yè)界等多家頂尖機(jī)構(gòu)成立“知識(shí)聯(lián)邦產(chǎn)學(xué)研聯(lián)盟”,旨在實(shí)現(xiàn)數(shù)據(jù)安全前提下,共同構(gòu)建優(yōu)質(zhì)數(shù)字技術(shù)生態(tài)。
李曉林認(rèn)為,按照目前人工智能發(fā)展態(tài)勢(shì),2040年前后,人工智能將步入3.0時(shí)代,除數(shù)據(jù)、算力、算法三要素之外,知識(shí)要素將成為第四要素。
開(kāi)放智能大腦浮出水面
2020年11月,同盾人工智能研究院發(fā)布知識(shí)聯(lián)邦技術(shù)體系下的數(shù)據(jù)安全交換(FLEX)協(xié)議,并于12月將其開(kāi)源。該協(xié)議中包含一系列的約定,只要遵守這些約定,參與方就可以安全地加入到聯(lián)邦,無(wú)需擔(dān)心數(shù)據(jù)隱私會(huì)有泄漏風(fēng)險(xiǎn),全面實(shí)現(xiàn)數(shù)據(jù)可用不可見(jiàn)。
協(xié)議背后,藏著李曉林和同盾對(duì)未來(lái)的野心。在李曉林看來(lái),未來(lái)肯定不會(huì)只有知識(shí)聯(lián)邦一個(gè)聯(lián)邦平臺(tái)存在。
行業(yè)需要一套完整的聯(lián)邦數(shù)據(jù)安全交換標(biāo)準(zhǔn),讓各個(gè)參與方在選擇使用聯(lián)邦平臺(tái)時(shí)有規(guī)可依,只要遵循相應(yīng)標(biāo)準(zhǔn),不同體系之間同樣可以實(shí)現(xiàn)數(shù)據(jù)交換,知識(shí)互通。
一旦參與機(jī)構(gòu)(數(shù)據(jù)提供者)足夠多,聯(lián)邦規(guī)模足夠大,數(shù)據(jù)多樣性就有保障,也就會(huì)有更多機(jī)構(gòu)(數(shù)據(jù)使用者)愿意來(lái)使用聯(lián)邦服務(wù),也會(huì)有更多科技型機(jī)構(gòu)(模型和應(yīng)用開(kāi)發(fā)者)來(lái)提供豐富的算法、模型和應(yīng)用。
屆時(shí),知識(shí)聯(lián)邦可以充分發(fā)揮平臺(tái)作用,對(duì)參與機(jī)構(gòu)提供的數(shù)據(jù),以及科技機(jī)構(gòu)提供的模型和應(yīng)用進(jìn)行評(píng)估,將數(shù)據(jù)作為生產(chǎn)資料的價(jià)值發(fā)揮到最大。
李曉林將其稱之為電商式的平臺(tái),參與方在數(shù)據(jù)可用不可見(jiàn)的安全環(huán)境中,進(jìn)行數(shù)據(jù)、模型應(yīng)用的交換,甚至可以在區(qū)塊鏈等技術(shù)的保障下進(jìn)行自由交易。而知識(shí)聯(lián)邦作為平臺(tái)方,可以對(duì)參與方貢獻(xiàn)出的數(shù)據(jù)和模型評(píng)分。
良性循環(huán)就此建立,李曉林說(shuō),知識(shí)聯(lián)邦的應(yīng)用范圍,也將不再局限于某一個(gè)行業(yè),而是有可能成為貫穿各行各業(yè)的開(kāi)放的智能大腦。
上世紀(jì)90年代,李曉林在浙大讀書時(shí),人工智能尚是冷門專業(yè)。機(jī)器學(xué)習(xí)課堂上只有五六個(gè)學(xué)生,圖書館里的資料大多是過(guò)期的油印本。如今的機(jī)器學(xué)習(xí)課堂,500人的教室常常坐滿,課上提出理論,課后甚至可以立刻做出樣品,一個(gè)學(xué)期的作業(yè)就可以做出自動(dòng)駕駛的原型,行業(yè)應(yīng)用不斷創(chuàng)新。
這一切都讓李曉林覺(jué)得,人工智能的下一個(gè)時(shí)代或許加速到來(lái),在這其中,必然將有知識(shí)聯(lián)邦的身影。
聲明:文章不構(gòu)成投資建議,轉(zhuǎn)載請(qǐng)注明來(lái)源與作者