最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

專訪:經(jīng)歷了時(shí)間檢驗(yàn)的不僅是論文,還有唐杰自己 | SIGKDD 2020時(shí)間檢驗(yàn)獎(jiǎng)

2020-09-25 10:00 作者:智源社區(qū)  | 我要投稿

KDD 2020即將在8月23-27日召開。而近日,SIGKDD 2020官方推特也公布了本年度的各種獎(jiǎng)項(xiàng),其中清華大學(xué)教授、智源研究院學(xué)術(shù)副院長唐杰團(tuán)隊(duì)獲得了ACM SIGKDD 2020時(shí)間檢驗(yàn)應(yīng)用科學(xué)獎(jiǎng)!

獲獎(jiǎng)?wù)撐臑樘平艿热嗽赟IGKDD 2008發(fā)表的論文《ArnetMiner: extraction and mining of academic social networks》。?

事實(shí)上,這并不只是一篇經(jīng)歷時(shí)間檢驗(yàn)的論文。ArnetMiner(或AMiner),全稱Academic Research Network Miner,即“學(xué)術(shù)研究網(wǎng)絡(luò)挖掘平臺(tái)”。從2006年起,唐杰便開始了該系統(tǒng)的研制,當(dāng)時(shí)他還是一個(gè)博士生,所有程序只是在一臺(tái)臺(tái)式機(jī)上運(yùn)行的demo;然而歷經(jīng)15年的打磨,如今該平臺(tái)已經(jīng)是上百人維護(hù)、數(shù)十臺(tái)服務(wù)器運(yùn)行的大型人才咨詢、技術(shù)分析、學(xué)術(shù)查詢的平臺(tái),而唐杰也已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的領(lǐng)軍人物。

一個(gè)人,一個(gè)項(xiàng)目,一輩子,做到頂天立地。

與其說是時(shí)間檢驗(yàn)論文,不如說是時(shí)間檢驗(yàn)唐杰。唐杰教授曾多次向筆者表示,做研究最重要的就是專注,“做一件事情,就要把這事情做深做透,而不要在意別人怎么看、怎么說”。十多年來,唐杰每天凌晨2點(diǎn)起床,絕大多數(shù)時(shí)間泡在實(shí)驗(yàn)室中,幾無中斷;領(lǐng)域研究熱點(diǎn)潮漲潮落,而他,研究的中心始終是AMiner系統(tǒng)。時(shí)間在變,而唐杰不變。這份專注,毫不客氣地說,國內(nèi)少有。


唐杰,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘教授,計(jì)算機(jī)系副主任,智源研究院學(xué)術(shù)副院長,清華-工程院知識(shí)智能聯(lián)合實(shí)驗(yàn)室主任,國家杰青。研究興趣包括:社會(huì)網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識(shí)圖譜。發(fā)表論文200余篇,擁有專利20余項(xiàng)。主持研發(fā)了研究者社會(huì)網(wǎng)絡(luò)挖掘系統(tǒng)AMiner,吸引了220個(gè)國家/地區(qū)1000多萬獨(dú)立IP訪問。


作者:智源社區(qū) 賈偉

智源:恭喜獲得SIGKDD 2020時(shí)間檢驗(yàn)獎(jiǎng)。我們注意到你在這方面的工作從2006年就已經(jīng)開始了,截止到現(xiàn)在AMiner的研發(fā)時(shí)間差不多已經(jīng)有14年了。所謂十年磨一劍,如今你已經(jīng)將這個(gè)平臺(tái)產(chǎn)業(yè)化。我們想借著這樣一個(gè)機(jī)會(huì)了解一下Aminer這個(gè)平臺(tái)的發(fā)展歷程。首先,能不能介紹一下AMiner是什么?

唐杰:AMiner原本的名字叫ArnetMiner,因?yàn)槲沂亲鰯?shù)據(jù)挖掘的,我們這個(gè)領(lǐng)域有位資深的教授,叫韓家煒,他比較喜歡用Miner這個(gè)詞,當(dāng)時(shí)我剛加入到數(shù)據(jù)挖掘這個(gè)領(lǐng)域,讀過他的文章后,就想做一個(gè)什么Miner,這是名字后半部分的來源。前半部是Academic Research NETwork的縮寫。所以整體上的意思是“學(xué)術(shù)研究網(wǎng)絡(luò)挖掘”。后來仍覺得太長,就直接縮寫為AMiner了。

從功能上來說,我們?cè)?006年設(shè)計(jì)時(shí)的想法就是,給一個(gè)學(xué)者名字,這個(gè)程序能夠自動(dòng)從互聯(lián)網(wǎng)上把相關(guān)的信息(例如主頁、照片、E-mail地址、論文等)給抓過來,并呈現(xiàn)出來。最開始的功能就是這么簡單。當(dāng)然,經(jīng)過這么多年,它的功能慢慢豐富了起來,例如怎么把相同名字的人區(qū)分開來,以及把項(xiàng)目、專利以及其他更多信息都匯聚過來。有了這些數(shù)據(jù),我們可以在里面做更多深度的挖掘,可以挖掘技術(shù)的脈絡(luò),然后用來服務(wù)政府、企業(yè)等。舉例來說,企業(yè)要做一個(gè)新的產(chǎn)品研發(fā),他可以用這種技術(shù)來挖掘這個(gè)領(lǐng)域里面的技術(shù)脈絡(luò),以及有哪些競爭對(duì)手等。這個(gè)時(shí)候,AMiner就變成了一個(gè)可以面向公眾、面向科研界以及面向企業(yè)和政府的服務(wù)性產(chǎn)品。

智源:所以本質(zhì)上來說,Aminer是一個(gè)基于學(xué)者數(shù)據(jù)庫構(gòu)建起來的信息檢索和挖掘系統(tǒng)。那構(gòu)建和檢索學(xué)者數(shù)據(jù)庫的原理是什么?

唐杰:最開始的時(shí)候,是我寫的程序,就在我們筆記本上跑。當(dāng)時(shí)就是給定一個(gè)人名名單,名單是哪來呢?我最開始是從DBLP上把人名全抽出來,大概有200多萬人名。有了名單之后,就去谷歌上搜索,谷歌會(huì)返回很多與這個(gè)人相關(guān)的頁面;然后我做了一個(gè)分類器,去判斷哪個(gè)頁面是他的主頁,分類器能做到90%多的精度,這也是我們發(fā)表的那篇文章中一個(gè)核心技術(shù)點(diǎn);自動(dòng)找到主頁網(wǎng)址后,我編寫一個(gè)程序把主頁打開,用一個(gè)條件隨機(jī)場的程序把里面的照片、EMAIL、地址、職位、學(xué)校等信息建成一個(gè)序列,進(jìn)行統(tǒng)計(jì)學(xué)習(xí)。針對(duì)這些數(shù)據(jù),我們也標(biāo)注了一個(gè)包含幾千個(gè)訓(xùn)練樣本的數(shù)據(jù),從而建立一個(gè)模型。最開始就完全是用這種方式自動(dòng)抽取。

后來我們發(fā)現(xiàn)一個(gè)問題,有學(xué)者反饋說,你顯示我的信息還是講師,但我現(xiàn)在已經(jīng)是教授了,這種信息變遷怎么辦?于是我們后來也允許用戶自己修改,變成自動(dòng)抽取+用戶修改相結(jié)合的模式。

再后來,問題又來了,因?yàn)橛腥藭?huì)惡意修改信息,例如把韓家煒改成孫怡舟的學(xué)生(編者注:實(shí)際相反)。于是我們就做出一個(gè)程序,能夠自動(dòng)判斷哪些是惡意修改,哪些是正確的,以及哪些信息是已經(jīng)過時(shí)的。比如一個(gè)人的職位信息顯示為講師,10多年都沒有變化,那這個(gè)信息很有可能就是過時(shí)的,程序就會(huì)自動(dòng)去網(wǎng)上查找,核查對(duì)不對(duì);當(dāng)然程序不會(huì)去自動(dòng)修改,而是會(huì)報(bào)警給我們。基本的原理大概就是這樣。

智源:據(jù)我們了解,你在最初的時(shí)候研究方向應(yīng)該不是數(shù)據(jù)挖掘,所以當(dāng)時(shí)是基于什么樣的考慮來做AMiner的?

唐杰:我博士的研究方向最開始是語義Web。主要做的就兩件事,一個(gè)是本體集成,你可以想象成圖匹配;另一個(gè)是語義標(biāo)注,即把文檔中文本的信息抽出來,變成一個(gè)語義化的結(jié)構(gòu)。博三的時(shí)候,我去微軟做了實(shí)習(xí),當(dāng)時(shí)碰到李航老師,他說有兩個(gè)方向可以選擇,一個(gè)是搜索,就是learning to ranking;一個(gè)是抽取,information extraction。當(dāng)時(shí)我去的時(shí)候是九月份,李老師說干脆我們?nèi)齻€(gè)月做一篇文章發(fā)KDD吧。我們大概從12月開始,2月份就投了KDD,而且很幸運(yùn)地中了。在這個(gè)過程中我學(xué)習(xí)到很多數(shù)據(jù)挖掘的東西,另外我也發(fā)現(xiàn)數(shù)據(jù)挖掘這個(gè)圈子的人都比較年輕,非常開放,這也堅(jiān)定了我去做數(shù)據(jù)挖掘的想法。

當(dāng)時(shí)我也快畢業(yè)了,就在想怎么再用數(shù)據(jù)挖掘做出一個(gè)新東西。當(dāng)時(shí)我想了三個(gè)課題。一個(gè)是做個(gè)二手火車票系統(tǒng),一個(gè)是做二手商品系統(tǒng),第三個(gè)就是學(xué)者數(shù)據(jù)系統(tǒng)。后來想了想,我們對(duì)二手商品不大懂,二手火車票也玩不溜。于是就做了我們最懂的。當(dāng)時(shí),我們也沒有想這么大,就想做一個(gè)網(wǎng)站。后來放進(jìn)去的研究越來越多,越滾越大,后來就做了AMiner這樣一科技情報(bào)系統(tǒng)。

智源:這非常有意思,所以也是基于偶然中的必然開始了這個(gè)研究。你有了這個(gè)想法之后,是怎么一步步把這個(gè)研究開展下去的?

唐杰:這個(gè)還真的花了一番功夫。畢業(yè)的第一年,我就給自己定了一個(gè)目標(biāo),除了在審論文外,今年不發(fā)文章。所以那年我基本上沒有寫論文,全部精力都在做這個(gè)系統(tǒng)。

當(dāng)時(shí)人也少,只有本科剛畢業(yè)的張靜、我讀研二的師弟洪銘材,就我們?nèi)齻€(gè)人,做了一年,基本上就上線了。

當(dāng)時(shí)我們一沒錢、二沒資源。我們就在實(shí)驗(yàn)室弄了臺(tái)普通的臺(tái)式機(jī)(不是服務(wù)器),把系統(tǒng)裝在臺(tái)式機(jī)上,另外很多程序也都是在我自己的筆記本上跑,當(dāng)時(shí)清華網(wǎng)絡(luò)比較快,我們就不停地抓數(shù)據(jù),一天能抓一萬上下的數(shù)據(jù),200萬的數(shù)據(jù)我們跑了好幾百天。就這樣慢慢把第一批數(shù)據(jù)給抓下來了。

我們沒有美工做網(wǎng)站設(shè)計(jì),所以第一個(gè)版本的界面完全是我自己畫的。

做出一個(gè)能運(yùn)行的系統(tǒng)后,我們?cè)?6年拿到一個(gè)國際會(huì)議ASWC進(jìn)行demo展示。當(dāng)時(shí)數(shù)據(jù)少,很多人都沒有在里面,但只要一搜索,立馬能抓取出來,當(dāng)時(shí)大家感覺還是很炫酷的。后來我們把它寫成文章,發(fā)表在SIGKDD 2008上了。

智源:AMiner系統(tǒng)從2008年開發(fā)至今,整個(gè)的過程中有哪些重大的變化嗎?

唐杰:我覺得有幾個(gè)。

首先,最早一個(gè)版本,其實(shí)是我用Perl寫的,但Perl中有一個(gè)技術(shù)問題我一直沒搞定;后來我讓洪銘材幫我解決,結(jié)果他搞了幾個(gè)晚上,也沒搞定,一怒之下,他把整個(gè)系統(tǒng)用Java全部重寫一遍,這是我們第一個(gè)在線運(yùn)行的穩(wěn)定的版本,這是很重要的一件事情。

第二個(gè)重要的事就是我們那篇文章。其實(shí)那篇文章,最早我們是投的WWW會(huì)議,評(píng)分意見是三個(gè)accept,一個(gè)weak accept,但結(jié)果卻被拒了。然后我們就投了KDD。我們還在KDD上做了演示,還是比較成功的。我們的系統(tǒng)也是從那個(gè)時(shí)候開始引起國際學(xué)術(shù)界關(guān)注的。

隨后還有一個(gè)重要的改版,就是我們找了一個(gè)清華的學(xué)生兼職做美工,幫我們把整個(gè)系統(tǒng)的界面重新設(shè)計(jì)了一遍,這樣有了一個(gè)相對(duì)比較好看的版本。這是很重要的一件事情,因?yàn)樗鼛砹艘粋€(gè)效應(yīng),很多學(xué)生開始對(duì)這個(gè)事情感興趣。當(dāng)時(shí)我還沒法帶碩士生、博士生,只能帶本科生。我就會(huì)在里面找一些小的topics讓他們做,例如做圖搜索或者去全網(wǎng)抓取課程等,AMiner里面的每一個(gè)小點(diǎn)都變成了一個(gè)研究,而且都很難,做完之后他們可以去發(fā)文章,而這個(gè)功能就集成到系統(tǒng)當(dāng)中。于是當(dāng)時(shí)很多本科生都來跟我做,08~10年這幾年我們系前幾名的本科生基本上都在跟著我做研究、發(fā)paper。這樣一下子就把系統(tǒng)的功能做得非常豐富。

但這也帶來一個(gè)麻煩,大家寫的代碼風(fēng)格都不一樣。一開始我和張靜管不過來,所以到后來就暈了。2011年左右,我們就找了全職工程師高博,他幫忙把代碼全部維護(hù)起來,這是非常重要的階段。也是從那個(gè)時(shí)候開始,我慢慢就松一些了,我在系統(tǒng)編碼上花費(fèi)的精力就少了;之前上面的很多代碼都是我寫的。一直到14、15年左右基本上都是高博一個(gè)人在維護(hù)代碼,當(dāng)然中間也有一些其他的工程師短時(shí)間來過。

最后一個(gè)階段,我們?nèi)嗽絹碓蕉嗔?,系統(tǒng)也變得越來越大,最初系統(tǒng)是在實(shí)驗(yàn)室的一個(gè)服務(wù)器上運(yùn)行就夠了,但后來不行了,我們慢慢就把系統(tǒng)遷到云上;再加上當(dāng)時(shí)有很多部門,例如工程院、科技部,找我們合作,對(duì)外的服務(wù)也就越來越多。這時(shí)候一個(gè)人就不夠了,一開始我們?cè)谇迦A里招了大概10多個(gè)人的團(tuán)隊(duì);后來團(tuán)隊(duì)成長得就更快了。在學(xué)校里維持這么大一個(gè)團(tuán)隊(duì),很痛苦,于是我們就把它產(chǎn)業(yè)化了,系里和學(xué)校也都很支持。后來就到了現(xiàn)在。

智源:在設(shè)計(jì)和開發(fā)的過程中,你們有遇到什么困難?

唐杰:我覺得我們一直在遇到困難,說實(shí)話。

一開始,我剛留校,一點(diǎn)啟動(dòng)經(jīng)費(fèi)都沒有,是完全沒有。然后我的導(dǎo)師王克宏就給了我2萬塊錢的經(jīng)費(fèi),他說這是你博士論文獲得了“校優(yōu)秀博士論文”,給了2萬塊錢獎(jiǎng)金。我拿到這錢,就想2萬塊錢能干嘛呢,算了,請(qǐng)同學(xué)們吃飯吧,于是就每天中午請(qǐng)大家作報(bào)告,順便吃個(gè)盒飯。當(dāng)時(shí)最大的困難就是什么都沒有,沒有機(jī)器,沒有計(jì)算資源,也沒有人。直到2009年以后,我們才慢慢有了資源可以調(diào)用。

在這之后,最大的困難就是試錯(cuò),當(dāng)時(shí)我們?cè)O(shè)計(jì)了很多東西,但不知道用戶喜歡什么。于是當(dāng)時(shí)就是,有一個(gè)功能我們就上線,如果沒有用戶訪問,我們慢慢就把這個(gè)功能給下線了。所以我們的試錯(cuò)成本非常高。不過一個(gè)好處是,當(dāng)時(shí)我們還是以研究為主,當(dāng)有一個(gè)問題來了,我們會(huì)在上面用一些算法做研究,發(fā)現(xiàn)效果大大提升,就可以發(fā)paper。這樣的話,至少從研究上,大家還是認(rèn)可的;如果系統(tǒng)上用的人多,我們就把它留下了,少了我們就把它換掉。

再往后,就是規(guī)?;螅覀兠媾R一個(gè)最大的挑戰(zhàn)就是,還能不能堅(jiān)持下去。當(dāng)時(shí)我們自己心里是害怕的,因?yàn)閳F(tuán)隊(duì)大了之后,人員的開銷、服務(wù)器的開銷都特別大。當(dāng)時(shí)我們很多開銷都是用科研經(jīng)費(fèi),甚至是我自己掏錢在養(yǎng)著,所以當(dāng)時(shí)特別害怕,不知道該怎么辦。后來也得到了許多人的幫忙,例如微軟,他們當(dāng)時(shí)在做微軟學(xué)術(shù)搜索,他們看到后就和我們合作,說“你需要什么資源,我們都可以給你”,后來微軟在云服務(wù)上給我們提供了好幾年的資助。

最近,我們要把它真正變成一個(gè)產(chǎn)品,讓它發(fā)揮更大范圍的意義,這是我們面臨的一個(gè)很重要的挑戰(zhàn)。

有些事情,你原來會(huì)覺得它比較簡單,但真正把它做大的時(shí)候,就會(huì)發(fā)現(xiàn)困難和挑戰(zhàn)非常的大。

智源:Google Scholar也是做學(xué)術(shù)搜索,與AMiner有很大的相似之處。那么AMiner系統(tǒng)和Google Scholar之間有什么區(qū)別呢?

唐杰:Google Scholar從2004年開始做的,他們做的非???。我還專門去谷歌總部訪問了他們。他們說,最開始他們只有兩個(gè)人;即使到現(xiàn)在也就十幾個(gè)人,其中只有一半的人在做技術(shù)。

他們的一個(gè)優(yōu)勢是,他們只需要把搜索的整個(gè)基礎(chǔ)架構(gòu)做一個(gè)轉(zhuǎn)換,就變成了學(xué)術(shù)搜索,所以非??臁R婚_始,他們主要做論文搜索。而AMiner與他們不同的是,我們更多的是偏研究色彩,就是把信息自動(dòng)抓過來之后,通過算法來研究。

當(dāng)然后來Google Scholar也加入了學(xué)者信息,不過他們并不是去抓取信息,而是讓人自己建profile,如果我不寫,那就沒有;如果我寫我是做機(jī)器學(xué)習(xí)的,那我就會(huì)出現(xiàn)在機(jī)器學(xué)習(xí)的排行中。我們?cè)趯W(xué)者信息的自動(dòng)獲取上做了許多算法。我覺得這是我們最大的區(qū)別。

從功能上來說,我們現(xiàn)在做了很多面向企業(yè)和政府的工作。這也是一個(gè)很大的差別。

智源:從學(xué)術(shù)上來說的話,AMiner的學(xué)術(shù)意義是什么?

唐杰:我覺得是這樣——我們現(xiàn)在發(fā)表了很多論文,研究病毒、基因、天體等,到現(xiàn)在全球已經(jīng)有好幾億的論文了;但論文發(fā)表背后的規(guī)律是什么呢?我們至今還沒有搞明白,這里面涉及到計(jì)算學(xué)、社會(huì)學(xué)、心理學(xué)等。美國很多年前啟動(dòng)一個(gè)很有名的項(xiàng)目,叫做Science of Science,很多相關(guān)學(xué)科的學(xué)者整合進(jìn)來,就是要搞明白論文發(fā)表的本身的規(guī)律。AMiner從學(xué)術(shù)學(xué)科意義上與此相關(guān),這是最核心的東西。我們希望在這個(gè)過程中,能夠挖掘出學(xué)科發(fā)展背后的機(jī)理。

智源:現(xiàn)在AMiner已經(jīng)注冊(cè)成為公司。你們的盈利模式是什么?

唐杰:其實(shí)現(xiàn)在公司的成員主要還是原來實(shí)驗(yàn)室的一些員工或?qū)W生,我們一直有一個(gè)團(tuán)隊(duì)在做相關(guān)研究,繼續(xù)發(fā)表相關(guān)論文,在核心技術(shù)上做一些事情。

AMiner本身的盈利模式,可以分成幾大塊。首先,To C方向,我們是完全免費(fèi)的,任何人都可以去搜索論文、查找資料。另外兩個(gè)最主要的應(yīng)用,一個(gè)是面向政府,一個(gè)是面向企業(yè)。

這方面主要有兩個(gè)脈絡(luò),一個(gè)是高端人才的發(fā)現(xiàn)和推薦,另一個(gè)是技術(shù)趨勢、脈絡(luò)的梳理和分析。我們最早的一個(gè)盈利點(diǎn)是專家推薦,比如說項(xiàng)目評(píng)審,找誰來評(píng)?他就需要一個(gè)最合適人選的推薦;另外在高端人才引進(jìn)方面,哪個(gè)方向,引進(jìn)誰?這也同樣需要作出推薦?,F(xiàn)在“十四五”規(guī)劃,不僅僅是國家層面,甚至各級(jí)政府、各高校院所都希望能夠把握未來的技術(shù)脈絡(luò),看清未來趨勢。

最近我們又開了一條新的線,就是做知識(shí)圖譜。知識(shí)圖譜,是我的老本行,原來也一直在做,但更多的是在實(shí)驗(yàn)室做科學(xué)的知識(shí)圖譜,當(dāng)時(shí)也沒有去想變現(xiàn)的問題。在這個(gè)過程中,我們做了很多工具。最近有許多企業(yè)找到我們,說想利用這套技術(shù)做他們領(lǐng)域的知識(shí)圖譜,例如水利的知識(shí)圖譜、電力的知識(shí)圖譜、電商的知識(shí)圖譜,我們最近和美團(tuán)合作做了食品的知識(shí)圖譜,還有我們馬上將開啟的石油的知識(shí)圖譜等。這里知識(shí)圖譜會(huì)面向各個(gè)領(lǐng)域,越做越大,隨后我們希望能把所有這些知識(shí)圖譜連接起來,構(gòu)建一個(gè)非常大的常識(shí)知識(shí)圖譜,這將助力未來的人工智能,在常識(shí)知識(shí)上取得突破,等待人工智能的再一次爆發(fā)。

智源:從2006年到現(xiàn)在,AMiner經(jīng)過不斷的迭代,現(xiàn)在已經(jīng)做成一個(gè)大的平臺(tái),基本成熟了。未來的話,你希望這個(gè)品牌會(huì)變成什么樣子?或者說在你心目中,它的最終形態(tài)應(yīng)該是什么?

唐杰:我特別希望AMiner在未來有三個(gè)東西能輸出出來。

第一個(gè),把它做成一個(gè)真正特別實(shí)用的工具,能夠讓很多業(yè)內(nèi)人士能方便地使用。這方面,我們還要不斷地完善,把它做的更實(shí)。

第二個(gè),輸出一些工具性的東西,最后變成一些面向企業(yè)和政府的應(yīng)用子系統(tǒng),這些系統(tǒng)可以做一些深度的挖掘。舉個(gè)極端的例子,現(xiàn)在中美對(duì)抗這么嚴(yán)重,芯片技術(shù)成為美國對(duì)中國卡脖子的一個(gè)問題,那么我們有沒有別的技術(shù)路線可以走呢?芯片研發(fā)有哪幾條脈絡(luò),哪些脈絡(luò)是可以解決當(dāng)下卡脖子問題的?我們希望能夠用這條系統(tǒng),給出一些政策的建議。所以在這方面,我們想做的更實(shí)、更深,做既有深度,又有應(yīng)用的東西。

第三個(gè),輸出一些更加通用的工具,包括剛才我說的構(gòu)建一整套的工具集。另外我們會(huì)在上面再做一些深度的推理。未來我們想做一個(gè)知識(shí)圖譜構(gòu)建的知識(shí)計(jì)算引擎,里面包括知識(shí)圖譜構(gòu)建、認(rèn)知推理等相關(guān)的一些技術(shù)。

智源:就個(gè)人研究而言,隨后你的研究還會(huì)不會(huì)繼續(xù)和AMiner進(jìn)行綁定呢?

唐杰:當(dāng)然會(huì)。我最近把我們的研究重點(diǎn)轉(zhuǎn)到了圖數(shù)據(jù)的表示學(xué)習(xí),包括圖神經(jīng)網(wǎng)絡(luò)等。從前年開始,我們提出了一個(gè)新的概念,叫“認(rèn)知圖譜”。認(rèn)知圖譜里面,我定義三個(gè)核心要素:第一個(gè)是常識(shí)知識(shí)圖譜,所以和AMiner是相關(guān)的;第二個(gè)是認(rèn)知推理,這也是我們?cè)贏Miner上特別想做的;第三個(gè)是邏輯生成,就是生成帶有邏輯性的文本。

智源:回顧你近20年研究生涯,以及AMiner近15年的開發(fā)歷程,你覺得貫穿整個(gè)過程中的精神是什么?

唐杰:我覺得就兩點(diǎn)很重要。

第一,一定要專注,做一個(gè)事情一定要特別專注。我覺得我去做一件事情,就特別喜歡把這件事做得特別solid,特別深。我當(dāng)時(shí)讀博士的時(shí)候,李航老師給我很大的影響,當(dāng)然也跟我的導(dǎo)師王克宏老師,以及李涓子老師有很大關(guān)系。不要太去在乎別人怎么看、怎么說你,最關(guān)鍵的是你得很專注的把這個(gè)事情做好。?

第二,我覺得也是清華精神,就是說每做一件事情,總要去想怎么能做到世界第一;或者說,這個(gè)事情我們?cè)趺茨茏龅絼e人做不到的境界。這個(gè)對(duì)我影響很大,每一件事情,我在做之前,就使勁地、反復(fù)地琢磨,我怎么才能讓它真正變得偉大或者說真正能幫助到大家。今年我們畢業(yè)典禮上,陳文光老師代表我們發(fā)言,他說,我們清華的學(xué)生應(yīng)該做這樣的事情——如果我們做不到,就沒有其他人能夠做到。

我覺得這兩點(diǎn),是我在整個(gè)研究中不停反思,也是這20年對(duì)我影響最大的。


關(guān)于我們

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,簡稱BAAI)成立于2018年11月,是在科技部和北京市委市政府的指導(dǎo)和支持下,由北京市科委和海淀區(qū)政府推動(dòng)成立的新型研發(fā)機(jī)構(gòu)。


專訪:經(jīng)歷了時(shí)間檢驗(yàn)的不僅是論文,還有唐杰自己 | SIGKDD 2020時(shí)間檢驗(yàn)獎(jiǎng)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
台中市| 根河市| 大丰市| 普定县| 沐川县| 郧西县| 平乐县| 波密县| 铜陵市| 馆陶县| 金昌市| 贵港市| 张家界市| 巴南区| 濮阳市| 津市市| 紫金县| 河北省| 宁远县| 枣阳市| 上高县| 景泰县| 安阳市| 余江县| 通渭县| 伊宁县| 宁国市| 永德县| 阿城市| 三都| 故城县| 永胜县| 宣汉县| 卓资县| 博爱县| 漳平市| 深圳市| 白城市| 南安市| 新乡县| 桃园市|