最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Manning、Ostendorf、Povey、何曉冬、周明共話多模態(tài)NLP的機(jī)遇和挑戰(zhàn)

2020-07-14 10:19 作者:智源社區(qū)  | 我要投稿

2020 北京智源大會(huì)

本文屬于2020北京智源大會(huì)嘉賓演講的整理報(bào)道系列。北京智源大會(huì)是北京智源人工智能研究院主辦的年度國(guó)際性人工智能高端學(xué)術(shù)交流活動(dòng),以國(guó)際性、權(quán)威性、專業(yè)性和前瞻性的“內(nèi)行AI大會(huì)”為宗旨。2020年6月21日-24日,為期四天的2020北京智源大會(huì)在線上圓滿舉辦。來(lái)自20多個(gè)國(guó)家和地區(qū)的150多位演講嘉賓,和來(lái)自50多個(gè)國(guó)家、超過(guò)50萬(wàn)名國(guó)內(nèi)外專業(yè)觀眾共襄盛會(huì)。



圓桌論壇 AI新疆域:多模態(tài)自然語(yǔ)言處理前沿趨勢(shì)

主持人:何曉冬,京東集團(tuán)技術(shù)副總裁?智源學(xué)者

論壇嘉賓:

Christopher Manning:斯坦福人工智能實(shí)驗(yàn)室(SAIL)主任

Mari Ostendorf:華盛頓大學(xué)電子與計(jì)算機(jī)工程系教授

周明:微軟亞洲研究院副院長(zhǎng)

Daniel Povey:小米集團(tuán)語(yǔ)音首席科學(xué)家

語(yǔ)音、文本、圖像等單一模態(tài)領(lǐng)域,在以深度學(xué)習(xí)為主的機(jī)器學(xué)習(xí)算法的推動(dòng)下,已經(jīng)取得了巨大的成功。然而在復(fù)雜情況下,完整的信息會(huì)同時(shí)涉及多種模態(tài);利用單一模態(tài)信息來(lái)完成任務(wù),往往力不從心。因此,近年來(lái)多模態(tài)機(jī)器學(xué)習(xí)研究逐漸發(fā)展起來(lái),并取得了許多重大進(jìn)展,成為了人工智能的一個(gè)重要分支。但多模態(tài)研究仍處于起步階段,其中既面臨著巨大的挑戰(zhàn),也存在著巨大的機(jī)遇。

?


那么,在自然語(yǔ)言處理領(lǐng)域,多模態(tài)研究又將怎樣發(fā)展呢?圍繞這一問(wèn)題,6月22日,在第二屆智源大會(huì)上舉行的“語(yǔ)音與自然語(yǔ)言處理專題論壇”中,由京東集團(tuán)技術(shù)副總裁、智源學(xué)者何曉冬主持召開了“AI新疆域:多模態(tài)自然語(yǔ)言處理”的圓桌論壇”,斯坦福人工智能實(shí)驗(yàn)室(SAIL)主任Christopher Manning、華盛頓大學(xué)電子與計(jì)算機(jī)工程教授 Mari Ostendorf、微軟亞洲研究院副院長(zhǎng)周明、小米集團(tuán)語(yǔ)音首席科學(xué)家 Daniel Povey 等在線上匯聚一堂,就多模態(tài)自然語(yǔ)言處理發(fā)展中的關(guān)鍵問(wèn)題進(jìn)行了深度對(duì)話。?


?整理:智源社區(qū)?亓麟


構(gòu)建多模態(tài)知識(shí)庫(kù)很重要

?

何曉冬:隨著研究者們把目光聚焦在純文本之外的其它模態(tài)的信息,自然語(yǔ)言處理領(lǐng)域迎來(lái)的新的機(jī)遇和挑戰(zhàn),人們很希望能從多模態(tài)數(shù)據(jù)中獲益。另一方面,在過(guò)去的幾年當(dāng)中,人們?cè)絹?lái)越關(guān)注對(duì)數(shù)據(jù)的研究,并開始在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練。規(guī)模龐大的數(shù)據(jù)雖至關(guān)重要,但在多模態(tài)多輪對(duì)話等復(fù)雜的應(yīng)用場(chǎng)景下,光靠大量的文本數(shù)據(jù)是不夠的,還需要盡可能多的所謂的“知識(shí)”。那么“多模態(tài)知識(shí)驅(qū)動(dòng)的自然語(yǔ)言處理”這一關(guān)鍵問(wèn)題,接下來(lái)的幾年里會(huì)有怎樣的技術(shù)突破和發(fā)展呢?最近的突破是大規(guī)模預(yù)訓(xùn)練模型BERT,以及其它大量數(shù)據(jù)注入的模型和處理大規(guī)模數(shù)據(jù)的新算法。那么多模態(tài)知識(shí)驅(qū)動(dòng)的自然語(yǔ)言處理是否會(huì)帶來(lái)類似的突破呢?

?

Christopher Manning:在60、70、80年代研究者眼里,一個(gè)很自然的想法就是如何用具有知識(shí)的算法來(lái)得到更好的智能推斷的效果。但在當(dāng)時(shí)建立一個(gè)完備的基于知識(shí)庫(kù)的系統(tǒng)是很困難的。盡管如此,還是有人不斷的在建立完備的知識(shí)庫(kù)上不斷努力?,F(xiàn)在看來(lái),很多人相信這樣的想法似乎是錯(cuò)誤的,因?yàn)槟壳拔覀兛梢栽谝粋€(gè)領(lǐng)域內(nèi)通過(guò)大量的訓(xùn)練數(shù)據(jù)得到不錯(cuò)的知識(shí)表示效果。然而,最近許多多模態(tài)相關(guān)的研究證明,超越文本的多模態(tài)知識(shí)庫(kù)是非常重要且困難的。我們想要的知識(shí)并不是像從百科全書中抽取詞條那么簡(jiǎn)單,例如要判斷一個(gè)人是否喜歡牛仔褲,需要了解關(guān)于這個(gè)人本身的許多背景知識(shí),這些知識(shí)可以從對(duì)話中提取,也可以從其他模態(tài)的數(shù)據(jù)中獲取。如果能很好的獲取感興趣內(nèi)容的多模態(tài)的完整知識(shí),那么將對(duì)多輪對(duì)話領(lǐng)域發(fā)展起到重要作用。

?

何曉冬:謝謝Christopher教授精彩的分析,這讓我想起Mari在演講中講到:自然語(yǔ)言處理中常用的“背景信息”應(yīng)該是隨著時(shí)間和狀態(tài)發(fā)生變化的,而非一個(gè)靜態(tài)的知識(shí)表示,Mari關(guān)于語(yǔ)言背景信息的定義和你說(shuō)的用戶相關(guān)信息很相似。Mari如何看待這一觀點(diǎn)呢?

?

Mari Ostendorf:我同意Christopher教授的觀點(diǎn),用戶相關(guān)的背景信息用于建模是很重要的,人們?nèi)粘T谡務(wù)撃骋患虑榈臅r(shí)候往往綜合了許多不同的信息。在需要快速反應(yīng)的對(duì)話系統(tǒng)中,往往需要從一個(gè)對(duì)話場(chǎng)景快速切換到另一個(gè)場(chǎng)景,好的知識(shí)表示有助于快速得到信息。想要把任何東西都用一大串文本來(lái)表示是不現(xiàn)實(shí)的,用科學(xué)的知識(shí)表示顯得尤為重要。好的知識(shí)表示應(yīng)當(dāng)具有“進(jìn)化”能力,能夠隨著時(shí)間變化。當(dāng)然了,知識(shí)表示存在一定的信息冗余,人們可以有選擇地運(yùn)用這些知識(shí)表示。

?

多模態(tài)數(shù)據(jù)如何驅(qū)動(dòng)NLP的發(fā)展

?

何曉冬:Mari教授提到知識(shí)并不一定是必須有用的,但卻是我們必須具備的,可以有選擇性的使用,這個(gè)觀點(diǎn)非常有趣。與多知識(shí)相關(guān)的研究也包括了多任務(wù)、多語(yǔ)言和多模態(tài)學(xué)習(xí),這些在不同任務(wù)上分布的數(shù)據(jù)來(lái)源非常廣泛,但往往結(jié)構(gòu)性不強(qiáng)。這類多模態(tài)數(shù)據(jù)將如何驅(qū)動(dòng)NLP領(lǐng)域的發(fā)展呢?

?

周明:知識(shí)表示是非常重要的,但同樣重要的一點(diǎn)是哪類知識(shí)是我們真正需要的。知識(shí)可以分為共性的、任務(wù)相關(guān)的、開放領(lǐng)域等多種類型。我們的語(yǔ)言學(xué)知識(shí)更依賴于具體的任務(wù)。盡管預(yù)訓(xùn)練模型可以學(xué)習(xí)到許多共性的知識(shí),但真正在下游任務(wù)上使用的話,還需要進(jìn)一步用任務(wù)相關(guān)的數(shù)據(jù)來(lái)訓(xùn)練模型。舉個(gè)問(wèn)答系統(tǒng)的例子來(lái)說(shuō),僅僅靠以往發(fā)布的訓(xùn)練數(shù)據(jù)就可以訓(xùn)練一個(gè)不錯(cuò)的模型嗎?我想不是的,好的問(wèn)答系統(tǒng)應(yīng)當(dāng)對(duì)對(duì)話場(chǎng)景有一個(gè)比較好的適應(yīng),用戶滿意的不是共性答案,而是那些最適合具體問(wèn)題場(chǎng)景的答案??偠灾瑥陌ㄒ曈X(jué)、語(yǔ)言等多模態(tài)數(shù)據(jù)中盡可能廣泛的獲取知識(shí)是非常重要的,但更為重要的是如何在特定場(chǎng)景下有選擇性的使用這些知識(shí)。多模態(tài)預(yù)訓(xùn)練就是一個(gè)很好的獲取跨模態(tài)的知識(shí)的方式,未來(lái)還有很多多模態(tài)預(yù)訓(xùn)練相關(guān)的工作可以做。

?

何曉冬:周明老師的觀點(diǎn)很有啟發(fā)性,為了抽取出真正需要的知識(shí),把預(yù)訓(xùn)練得到的知識(shí)和任務(wù)相關(guān)的知識(shí)進(jìn)行結(jié)合更能夠適應(yīng)現(xiàn)實(shí)任務(wù)的需要。人類的語(yǔ)言內(nèi)容要通過(guò)語(yǔ)音發(fā)出,Daniel是語(yǔ)音方面的專家,您怎么看待多模態(tài)知識(shí)這個(gè)問(wèn)題呢?

?

Daniel Povey:在我看來(lái)語(yǔ)音信號(hào)本身和知識(shí)關(guān)系不大,因?yàn)檎Z(yǔ)音信號(hào)的發(fā)出是物理過(guò)程,知識(shí)是無(wú)法通過(guò)語(yǔ)音信號(hào)和語(yǔ)音模型區(qū)分的。所以從單純的語(yǔ)音到知識(shí)過(guò)程,似乎研究意義不大,但通過(guò)語(yǔ)言這一橋梁就可以連接語(yǔ)音和知識(shí)了,所以語(yǔ)音這一模態(tài)的信息更依賴于通過(guò)語(yǔ)言來(lái)體現(xiàn)。

?

值得期待的技術(shù)突破

?

何曉冬:人類說(shuō)出話語(yǔ)的過(guò)程實(shí)際上是語(yǔ)言表達(dá)的過(guò)程,也是知識(shí)傳遞的過(guò)程。由于知識(shí)結(jié)構(gòu)的復(fù)雜性,不同的研究方向會(huì)有不同的解讀。不過(guò)從當(dāng)下的研究進(jìn)展來(lái)看,預(yù)訓(xùn)練的確是目前最好的從文本語(yǔ)言中獲取知識(shí)的手段。超越文本的知識(shí)需要新的解決方案,剛才Mari提到背景知識(shí)用于建模的方法,及知識(shí)表示應(yīng)具有進(jìn)化能力的觀點(diǎn)非常精彩。周明博士則從如何獲取有用知識(shí)的角度進(jìn)行了分析。事實(shí)上,NLP領(lǐng)域最近也逐漸從純文本的研究邁向了多模態(tài)研究,例如融合文本和視覺(jué)信息。同樣隨之而來(lái)也有許多有趣的應(yīng)用,例如圖片問(wèn)答、多模態(tài)對(duì)話系統(tǒng)等等。自然語(yǔ)言處理領(lǐng)域的發(fā)展非常十分迅速,不僅帶動(dòng)了許多任務(wù)相關(guān)領(lǐng)域的進(jìn)步,也推動(dòng)了語(yǔ)言模型本身如BERT的發(fā)展。多模態(tài)作為自然語(yǔ)言處理的新的突破口,Manning博士,在您看來(lái)最值得期待的進(jìn)展和技術(shù)突破是什么?

?

Christopher Manning:多模態(tài)確實(shí)是一個(gè)值得探索的方向,也能看出來(lái)有許多有趣的工作值得去做,比如圖片標(biāo)題生成、視覺(jué)問(wèn)答等。我比較期待的發(fā)展方向是從多模態(tài)角度出發(fā),綜合多種信息來(lái)回答一系列問(wèn)題的智能體的出現(xiàn),并能實(shí)現(xiàn)多種信息之間的交互,這些信息中相當(dāng)一部分來(lái)自非語(yǔ)言學(xué)知識(shí)。

?

何曉冬:事實(shí)上,人們已經(jīng)開始研究Manning教授所說(shuō)的多模態(tài)信息交互了?。智源發(fā)布的多模態(tài)對(duì)話數(shù)據(jù)集和挑戰(zhàn)賽正是為了推動(dòng)多模態(tài)信息交互而開展的。剛才Mari教授也提到,不同的信號(hào)處理能夠得到不同的模態(tài)數(shù)據(jù),不僅僅可以從圖像、文本角度出發(fā),也可以從音頻本身的頻率信息出發(fā)獲取有用的音頻模態(tài)信息,Mari教授可以詳細(xì)說(shuō)一些這個(gè)思路嗎?

?

Mari Ostendorf:我認(rèn)為多模態(tài)信息除了圖像和文本,音頻中也存在大量信息,比如音頻的韻律對(duì)分析一個(gè)人說(shuō)話的情感就非常重要。另外,多人對(duì)話的研究將是一個(gè)新的研究方向。在多人討論的場(chǎng)景下,準(zhǔn)確地識(shí)別當(dāng)前在和哪個(gè)人對(duì)話是一項(xiàng)必要工作。此外,如何利用更多模態(tài)的信息,來(lái)更好的實(shí)現(xiàn)人機(jī)交互也是需要不斷努力的方向。另一個(gè)可研究方向是剛才Manning教授提到的類人智能體,與智能體交互的時(shí)候,智能體應(yīng)該能和人一樣,對(duì)周圍的環(huán)境有一個(gè)比較強(qiáng)的視覺(jué)辨識(shí)能力,也應(yīng)該對(duì)對(duì)話內(nèi)容有一個(gè)全面的認(rèn)識(shí),幾種模態(tài)之間信息的對(duì)齊和篩選是至關(guān)重要的。

?

何曉冬:在一個(gè)非常復(fù)雜的場(chǎng)景當(dāng)中,如果想要實(shí)現(xiàn)Mari教授所說(shuō)的,復(fù)雜環(huán)境下的交互的智能體,那必然就需要許多傳感器來(lái)獲取多種信息,并這些信息進(jìn)行進(jìn)一步的區(qū)分和匯總。談到多種信息,我想起周明老師在演講中提到了多語(yǔ)言學(xué)習(xí)的相關(guān)研究,那假如我們想要一個(gè)智能體能夠懂得一百種語(yǔ)言,自然就需要跨語(yǔ)言學(xué)習(xí),關(guān)于多模態(tài)信息的跨語(yǔ)言學(xué)習(xí)研究,我們可以有什么期待呢?

?

周明:剛才Mari教授和Manning教授所說(shuō)的觀點(diǎn)我是很贊同的,我從實(shí)際產(chǎn)業(yè)視角下來(lái)看也能得出類似的結(jié)論。不過(guò)從產(chǎn)業(yè)上的大數(shù)據(jù)量、深層次模型和大規(guī)模應(yīng)用的要求之下,如何靈活有效的訓(xùn)練多語(yǔ)言和多模態(tài)模型是一個(gè)至關(guān)重要的問(wèn)題。數(shù)據(jù)是模型的第一個(gè)關(guān)鍵點(diǎn),首先要構(gòu)建一個(gè)具有統(tǒng)一范式的多模態(tài)數(shù)據(jù)庫(kù),并不斷在有趣的任務(wù)上進(jìn)行嘗試。如何獲得足夠大量、準(zhǔn)確、多方面的多模態(tài)數(shù)據(jù)本身就是一個(gè)不小的挑戰(zhàn)。其次,要找到新方法來(lái)高效訓(xùn)練具有強(qiáng)適應(yīng)能力的深度模型。產(chǎn)業(yè)界也很關(guān)注用戶體驗(yàn),好的客戶服務(wù)需要了解客戶多方面的信息,好的多模態(tài)語(yǔ)言處理也應(yīng)當(dāng)利用與語(yǔ)言信息有關(guān)的其它信息。當(dāng)構(gòu)建了大規(guī)模多模態(tài)數(shù)據(jù)集之后,如何對(duì)信息進(jìn)行有效整合,是對(duì)研究人員提出的新的挑戰(zhàn)。

?

何曉冬:從周明博士的分析看來(lái),盡管大家面對(duì)的是同樣的科學(xué)問(wèn)題,產(chǎn)業(yè)界和學(xué)術(shù)界確實(shí)也還有著不一樣的要求。那么我想問(wèn)一下Daniel作為產(chǎn)業(yè)界的語(yǔ)音處理專家,在處理語(yǔ)音的時(shí)候,會(huì)不會(huì)考慮情感等信息呢?

?

Daniel Povey:我對(duì)語(yǔ)音識(shí)別領(lǐng)域有著挺長(zhǎng)時(shí)間的研究,開發(fā)和維護(hù)了語(yǔ)音識(shí)別開源工具?Kaldi,目前我們已經(jīng)能夠成功的進(jìn)行語(yǔ)音到文本的轉(zhuǎn)換。但音頻信息的利用還有很大的前景。如果能有效的對(duì)音頻中的音調(diào)、音色、韻律等信息進(jìn)行分析提取,獲取到的也將會(huì)是很有用的多模態(tài)信息。當(dāng)前對(duì)大規(guī)模多模態(tài)數(shù)據(jù)的標(biāo)注面臨一些挑戰(zhàn)。例如如何對(duì)大規(guī)模的音頻和視頻數(shù)據(jù)進(jìn)行標(biāo)注,粒度應(yīng)當(dāng)如何,什么樣的標(biāo)簽信息是真正有意義的,這些問(wèn)題都值得去深入探索。

?

何曉冬:非常感謝幾位專家學(xué)者從自己的研究興趣出發(fā),對(duì)多模態(tài)自然語(yǔ)言處理的研究做了鞭辟入里的分析。多模態(tài)方向的研究從數(shù)據(jù)構(gòu)建、建模方法、評(píng)估標(biāo)準(zhǔn)、訓(xùn)練算法等多個(gè)角度來(lái)講都是一個(gè)較新的領(lǐng)域,也是很有發(fā)展前景的方向,未來(lái)多模態(tài)自然語(yǔ)言處理的研究方向?qū)⒋笥锌蔀椤?/p>


Manning、Ostendorf、Povey、何曉冬、周明共話多模態(tài)NLP的機(jī)遇和挑戰(zhàn)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
车险| 长岛县| 资中县| 保康县| 陵川县| 都安| 密山市| 乌兰察布市| 沁阳市| 平邑县| 浮山县| 南陵县| 岐山县| 平顺县| 仁化县| 治多县| 凤庆县| 个旧市| 东台市| 大渡口区| 永清县| 塔河县| 靖西县| 玉溪市| 井冈山市| 大埔区| 纳雍县| 新竹县| 诏安县| 临湘市| 南岸区| 上杭县| 上蔡县| 太原市| 永善县| 金门县| 营山县| 蕉岭县| 老河口市| 芜湖市| 鄄城县|