深度好文|語音語言信息處理重要研究進展
全文大綱如下(總結(jié)了12項重要進展):
1. 語音語言基礎資源建設
2. 漢字編碼、輸入輸出及漢字信息處理
3. 知識工程與知識庫建設
4. 語言模型
5. 序列標注模型
6. 句法結(jié)構(gòu)理論和篇章表示理論
7. 文本表示模型
8. 自動問答與人機對話
9. 機器翻譯
10. 聽覺場景分析與語音增強
11. 語音識別
12. 語音合成
相關(guān)報告推薦:計算機視覺重要研究進展
更多好文關(guān)注我們,查看主頁中“專欄”~
以下為正文內(nèi)容~

引言
語言是人類思維的載體,是人類交流思想、表達情感最自然、最直接、最方便的工具。人類歷史上以語言文字形式記載和流傳的知識占知識總量的80%以上。在上個世紀40年代,從計算機剛剛誕生之日起,人們就希望通過計算機解決自動機器翻譯(Machine Translation, MT)問題。1956年當人工智能概念提出時,自然語言理解(Natural Language Understanding, NLU)就成為人工智能研究的核心內(nèi)容之一,其主要目的是探索人類自身語言能力和語言思維活動的本質(zhì),研究如何模仿人類語言認知過程建立語義的形式化表示和推理模型。在當前全球性人工智能研究大潮中,自然語言理解更是被視為人工智能皇冠上的明珠。
在美國科學院自動語言處理咨詢委員會(Automatic Language Processing Advisory Committee, ALPAC)于1966年公布的調(diào)查報告里,計算語言學(Computational Linguistics, CL)這一術(shù)語首次被提出來,其基本理念是希望通過數(shù)學方法建立形式化的計算模型來分析、理解和生成自然語言,更多地強調(diào)計算模型的有效性、可行性等基礎理論和方法研究。
隨著信息時代的到來,互聯(lián)網(wǎng)和移動通信技術(shù)大規(guī)模普及和應用,人們使用自然語言進行通訊和交流的形式也越來越多地體現(xiàn)出它的多樣性、靈活性和廣泛性。這種趨勢擴大了自然語言處理的需求,也對計算機的自然語言處理能力提出了更高的要求。在上個世紀70~80年代,從語言工程和建立實際應用系統(tǒng)的角度,人們提出了自然語言處理(Natural Language Processing,NLP)的概念,使這一學科方向的內(nèi)涵得到了進一步豐富和擴展。簡單地說,自然語言處理是研究如何利用計算機技術(shù)對語言文本(句子、篇章或話語等)進行處理和加工的一門學科。從研究任務的角度,自然語言處理可分為基礎技術(shù)研究和應用技術(shù)研究兩部分。其中,基礎技術(shù)研究包括詞法、句法、語義和篇章分析以及知識表示與計算等自然語言處理的基本任務;應用技術(shù)研究包括文本分類聚類、信息抽取、情感分析、自動文摘、自動問答與對話和機器翻譯等自然語言處理的應用。
自然語言理解、計算語言學和自然語言處理三個術(shù)語的內(nèi)涵和外延略有不同,如果說自然語言理解術(shù)語的內(nèi)涵更多地聚焦在如何借鑒神經(jīng)科學和認知語言學的研究成果建立語義的形式化表示和推理模型上,計算語言學則側(cè)重關(guān)注對語言現(xiàn)象的數(shù)學建模方法(用計算的手段來研究語言/語言學,和為NLP提供可計算的語言學理論),那么自然語言處理則更多地關(guān)注以自然語言文本為處理對象的應用技術(shù)和系統(tǒng)實現(xiàn)方法上,但很難給出他們之間的嚴格區(qū)分。
需要說明的是,無論是自然語言理解和計算語言學,還是自然語言處理,其研究對象都是文本(文字)。語音和文字是自然語言的兩個基本屬性,因此,除了以文字為主要研究對象的上述各類技術(shù)和理論方法以外,圍繞語音開展的語音識別、語音合成和說話人識別等相關(guān)研究則成為語言技術(shù)這一泛化領(lǐng)域的另一重要組成部分。目前人們通常把涉及自然語言的各類技術(shù)統(tǒng)稱為人類語言技術(shù)(human language technology, HLT)。自1947年機器翻譯概念提出和1949年W. Weaver 正式發(fā)表題為Translation的備忘錄以來,人類語言技術(shù)經(jīng)歷了70多年的曲折發(fā)展歷程,其技術(shù)方法大致可以分為三個階段:(1)從學科萌芽期到上個世紀80年代后期及90年代初期,為采用以模板、規(guī)則方法為主的符號邏輯階段,屬于理性主義方法;(2)從上個世紀90年代初期到2013前后,是以統(tǒng)計機器學習為主流方法的經(jīng)驗主義方法時期;(3)從2013年之后,進入了基于多層神經(jīng)網(wǎng)絡的深度學習方法為主流的連結(jié)主義時期。從某種意義上講,以神經(jīng)網(wǎng)絡為基礎的深度學習方法也是經(jīng)驗主義方法的一種具體體現(xiàn),都是數(shù)據(jù)驅(qū)動的方法。
正如前文所述,語音和文字是人類語言的兩個基本屬性,以語音為主要處理對象的語音識別、語音合成和說話人識別等通常稱為語音技術(shù),而以文本(詞匯、句子、篇章等)為主要處理對象的研究,通常稱為“自然語言處理”。以下分別從自然語言處理和語音技術(shù)兩大方向闡述基礎資源建設方面的成果進展,以及語音語言技術(shù)方法、應用系統(tǒng)實現(xiàn)及未來挑戰(zhàn)。
回顧語音語言技術(shù)走過的70多年曲折歷程,可以從如下三個方面歸納出這一領(lǐng)域的12項重要進展:
1.?相關(guān)技術(shù)的基礎和支撐條件。語音語言基礎資源和知識庫建設是整個領(lǐng)域技術(shù)方法得以實現(xiàn)的基礎和條件,如果沒有這些資源的支撐,再好的理論和算法也都是空想;而漢字編碼、輸入和輸出則是中文信息處理語言前提條件,一度成為困擾整個領(lǐng)域發(fā)展的關(guān)鍵因素,這一技術(shù)的突破理當載入史冊。文字速錄機的發(fā)明和漢字照排及印刷技術(shù)的誕生不僅徹底改變了行業(yè)的發(fā)展,而且直接影響著整個人類的社會生活。
2.?關(guān)鍵技術(shù)和理論方法。語言模型(n-gram)、序列標注模型和文本表示方法可以說是自然語言處理中三大支柱性的模型(尤其是在基于統(tǒng)計和神經(jīng)網(wǎng)絡模型的經(jīng)驗主義方法中),其中的n元文法模型被推廣應用于圖像、視覺信息處理和基因預測等領(lǐng)域。以喬姆斯基句法結(jié)構(gòu)理論為代表的理性主義方法不僅對語言學、計算語言學、認知語言學和自然語言處理等相關(guān)研究具有重要而深遠影響,甚至成為計算機編譯系統(tǒng)建立的理論基礎,且廣泛應用于模式識別的其他任務。篇章表示和分析理論近年來得到了廣泛關(guān)注,成為眾多自然語言處理技術(shù)進一步突破的重要環(huán)節(jié)。聽覺場景分析和語音增強技術(shù)則在現(xiàn)代語音識別系統(tǒng)中發(fā)揮著不可替代的作用。
3.?產(chǎn)業(yè)化應用情況。從產(chǎn)業(yè)化應用及對人類社會生活的影響等角度看,漢字輸入、激光照排、搜索引擎、機器翻譯、自動問答和人機對話系統(tǒng)以及語音識別和語音合成等,當仁不讓地成為這一領(lǐng)域的閃光點,并在各行各業(yè)發(fā)揮越來越大的作用,甚至日漸影響人類的生活方式和思維方式。
1. 語音語言基礎資源建設
語言資源庫描述并存儲了客觀的語言知識和世界知識,是自然語言處理各種應用的核心和基礎。無論是基于理性主義的規(guī)則方法還是基于經(jīng)驗主義的統(tǒng)計和深度學習方法,語言資源庫都始終扮演著核心的知識支撐作用。
語言資源庫包括語料庫、詞匯知識庫、語法語義詞典等,它們在不同層面構(gòu)成了自然語言處理各種方法賴以實現(xiàn)的基礎,甚至是建立或改進一個自然語言處理系統(tǒng)的“瓶頸”。因此,世界各國對語言資源庫的開發(fā)建設都投入了巨大的努力。
從上個世紀70年代末期開始,國際上的語料庫建設開始興起,在美國、英國和法國等各國政府的資助下一大批語料庫被建成,如英國Lancaster大學與挪威Oslo大學和Bergen大學聯(lián)合建成的LOB語料庫 (Lancaster-Oslo / Bergen Corpus)、英國國家語料庫(British National Corpus, BNC)等。美國語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium, LDC)組織構(gòu)建、收集和發(fā)布的一系列語言資源庫(如 UPeen Tree Bank, PropBank, NomBank等)在國際上頗具影響,為語言學和自然語言處理研究發(fā)揮了重要作用。而由美國普林斯頓大學(Princeton University)認知科學實驗室(Cognitive Science Laboratory)George A. Miller領(lǐng)導的研究組開發(fā)的英語詞匯知識庫WordNet是一種傳統(tǒng)的詞典信息與計算機技術(shù)以及心理語言學的研究成果有機結(jié)合的產(chǎn)物。從1985年開始,WordNet作為一個知識工程全面展開,經(jīng)過近20年的發(fā)展,WordNet已經(jīng)成為國際上非常有影響力的英語詞匯知識資源庫。美國加州大學伯克利分校研發(fā)的語義型詞典FrameNet從語義和句法兩個層面對詞匯進行了分類標注,為自然語言理解方法研究提供了有力的支撐。
自1979年以來,中國開始進行語料庫建設,并先后建成漢語現(xiàn)代文學作品語料庫(1979年,武漢大學,527萬字)、現(xiàn)代漢語語料庫(1983年,北京航空航天大學,2000萬字)、中學語文教材語料庫(1983年,北京師范大學,106萬字)和現(xiàn)代漢語詞頻統(tǒng)計語料庫(1983年,北京語言學院,182萬字)。近20多年來,相當一批大學和研究機構(gòu)(包括各大學、研究所)都對漢語資源庫建設做了大量工作(包括漢語、英語以及中國少數(shù)民族語言語料庫)。其中,北京大學計算語言學研究所開發(fā)的“綜合型語言知識庫”、董振東等開發(fā)的“知網(wǎng)”(HowNet)是兩項有代表性的成果,而中文語言資源聯(lián)盟(Chinese Language Data Consortium, 縮寫:Chinese LDC)則是為推動我國語言資源共享所建立的第一個聯(lián)盟性學術(shù)組織。
綜合型語言知識庫由北京大學俞士汶教授帶領(lǐng)團隊從1986年經(jīng)30余年研制而成,涵蓋現(xiàn)代漢語語法信息詞典,漢語短語結(jié)構(gòu)規(guī)則庫,現(xiàn)代漢語多級加工語料庫,多語言概念詞典,平行語料庫,和多領(lǐng)域術(shù)語庫。該成果獲得2011年國家科技進步二等獎,為我國自然語言處理研究提供了多種類知識資源。知網(wǎng)由董振東教授于1988年提出,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)被廣泛應用于詞義消歧和機器翻譯等中文信息處理的各種任務。知網(wǎng)項目獲得2012年“錢偉長中文信息處理科學技術(shù)獎”一等獎。
與此同時,用于語音識別和合成技術(shù)研發(fā)的語音庫也同步興起。用于語言及言語工程研究的自然語音庫以中國社會科學院語言研究所為代表,主要包括:(1)SCSC漢語普通話單音節(jié)語音語料庫:該語料庫庫由漢語單音節(jié)語音數(shù)據(jù)、單音節(jié)表及管理軟件組成。(2)WCSC漢語普通話兩音節(jié)語音語料庫:該語料庫由漢語兩音節(jié)語音數(shù)據(jù)、兩音節(jié)語料表及管理軟件組成。(3)ASCCD漢語普通話朗讀語篇語料庫:該語料庫由語篇語料、語音數(shù)據(jù)和語音學標注信息組成,內(nèi)容包括18篇文章,體裁覆蓋記敘、議論、通訊、散文等常見文體。(4)CADCC漢語普通話自然口語對話語料庫:該語料庫由自然口語對話語音數(shù)據(jù)和對話文本組成。為保證自然口語的純粹性,該語料庫對發(fā)音人對話內(nèi)容不作任何限制,完全反映真實環(huán)境下漢語自然口語特征。(5)TSC973電話語料庫:該語料庫由真實環(huán)境下收集的酒店訂房電話(對話)語音數(shù)據(jù)、文字轉(zhuǎn)寫和多層語音學標注組成,共有10個對話單元。上述語料資源是自然語音庫的典范,為語音學、自然語音處理和語音人機交互等領(lǐng)域的發(fā)展奠定了堅實的基礎,極大地促進了相關(guān)領(lǐng)域的理論創(chuàng)新與技術(shù)突破。
2. 漢字編碼、輸入輸出及漢字信息處理
漢字作為中華民族璀璨文化中獨具特色的一項發(fā)明,在數(shù)千年一脈相傳的歷史中,為記載、繼承和傳播中華文化建立了不朽的功勛。然而,當20世紀40年代電子計算機問世,并迅速引發(fā)席卷全球的信息技術(shù)革命,如何對漢字進行編碼、存儲、輸入和輸出等一系列關(guān)于漢字處理的難題,曾一度成為電腦在中國普及和推廣的“攔路虎”。因此,從上個世紀70年代中期到80年代末期,漢字信息處理技術(shù)成為當時的研究熱潮。
漢字信息處理主要指以漢字為處理對象的相關(guān)技術(shù),包括漢字字符集的確定、編碼、字形描述與生成、存儲、輸入、輸出、編輯、排版以及字頻統(tǒng)計和漢字屬性庫構(gòu)造等。一般而言,漢字信息處理關(guān)注的是文字(一種特殊的圖形)本身,而不是其承載的語義或相互之間的語言學關(guān)系,因此,這里將其分離出來單獨介紹,而后面將要重點介紹的“漢語信息處理”部分則是指對傳遞信息、表達概念和知識的詞、短語、句子、篇章乃至語料庫和網(wǎng)頁等各類語言單位及其不同表達形式的處理技術(shù)。
在漢字信息處理中,有兩個問題最引人注目,一是漢字的輸入問題,二是漢字的排版、印刷問題。其中,漢字輸入問題又分為鍵盤輸入和非鍵盤輸入兩種。所謂鍵盤輸入是指通過對漢字進行“編碼”,即利用普通計算機鍵盤上的英語字母鍵之間的組合,建立起它們與漢字之間的對應關(guān)系,并將這種對應關(guān)系以編碼對照表的形式存儲在計算機內(nèi)部,最終利用轉(zhuǎn)換軟件將鍵入的字符串轉(zhuǎn)換為對應的漢字。
我國最早的計算機漢字編碼輸入始于上個世紀50年代的俄漢機器翻譯研究,當時只能用電報碼和四角號碼做漢字編碼。60年代完成了“見字識碼”的方案設計和碼本。1967年ASCII碼(美國信息交換標準代碼)規(guī)范標準正式發(fā)表,利用8位二進制(一個字節(jié))表示控制狀態(tài)和所有英文字符,解決了英文的計算機存儲和處理難題。由于一個字節(jié)只能表示256種符號,而常用漢字則多達幾千,因此漢字無法僅用一個字節(jié)表示。1978年5月上海推出了一臺漢字信息處理實驗樣機。20世紀80年代,在聯(lián)想漢卡、四通中文電腦打字機之后,中國的漢字編碼出現(xiàn)了“萬碼奔騰”的局面,從“五筆字型”,到自然碼、鄭碼、拼音輸入法、智能ABC、智能狂拼等,相對規(guī)范、易學易用的輸入法不斷推出。國家七五、八五重點科技攻關(guān)項目“PJS普及型中文輸入系統(tǒng)”、“規(guī)范碼漢字輸入系統(tǒng)”和“認知碼”等都對漢字編碼輸入方法進行了深入研究,并取得了一批研究成果。尤其值得提及的是,速記專家唐亞偉先生發(fā)明的亞偉中文速錄機,實現(xiàn)了由手寫速記跨越到機械速記的歷史性突破,這一成果被迅速推廣應用,催生出了速錄行業(yè)和速記師職業(yè)。2006年91歲高齡的唐亞偉獲得我國中文信息處理領(lǐng)域的最高科學技術(shù)獎—錢偉長中文信息處理科學技術(shù)獎一等獎。
非鍵盤輸入是指不借助鍵盤直接將漢字或數(shù)字等字符輸入計算機的技術(shù),常用的方法包括文字識別、語音識別等。漢王文字識別技術(shù)是一個成功的代表。
在漢字的排版、印刷方面,以北京大學王選院士為代表的從事漢字照排和印刷技術(shù)研究的老一代專家在解決巨量漢字字形信息存儲和輸出等問題中做出了卓越貢獻。1981年第一臺漢字激光照排系統(tǒng)“原理性樣機”通過鑒定,1985年激光照排系統(tǒng)在新華社正式運行。1987年《經(jīng)濟日報》采用激光照排系統(tǒng)出版了世界上第一張采用計算機屏幕組版、整版輸出的中文報紙,成為國內(nèi)第一家全部廢除鉛字排版的報紙。此后,國產(chǎn)激光照排系統(tǒng)迅速推廣應用,在中國掀起了“告別鉛與火,迎來光與電”的印刷技術(shù)革命。另外,上個世紀80年代完成的《漢字頻度表》、 《現(xiàn)代漢語頻度詞典》、GB2313-80、 6763漢字屬性信息庫等一系列基礎性工作,都為后來的漢語信息處理研究奠定了很好的基礎。
3. 知識工程與知識庫建設
知識是信息的一種抽象形式,是構(gòu)成智能的基礎。知識工程的概念1977年由費根鮑姆(Feigenbaum)提出,主要是研究知識獲取、知識表示和知識使用的學科。概括地講,知識工程是研究知識信息處理的學科,它起源于20世紀70年代的專家系統(tǒng),歷經(jīng)近50年的發(fā)展,近年來出現(xiàn)了大規(guī)模知識圖譜技術(shù)。
RI(XCON)計算機系統(tǒng)配置系統(tǒng)、醫(yī)療領(lǐng)域的MYCIN系統(tǒng)和石油探測領(lǐng)域的Dipmeter系統(tǒng)等是傳統(tǒng)知識工程的代表,在規(guī)則明確、邊界清晰和應用聚焦的應用場景中取得了巨大成功。針對傳統(tǒng)知識工程系統(tǒng)的知識獲取和知識應用的困難,萬維網(wǎng)和語義網(wǎng)的出現(xiàn)極大便利了知識的組織形式和獲取方式。2001年,萬維網(wǎng)(WWW)之父蒂姆-伯納斯-李(Tim Berners-Lee)提出語義網(wǎng)的概念,旨在解決知識的表示和組織形式,維基百科等給知識獲取提供了半結(jié)構(gòu)化的信息來源。隨著大數(shù)據(jù)時代的到來,知識庫技術(shù)突破了規(guī)模與質(zhì)量的瓶頸,2012年谷歌知識圖譜的誕生是這一突破的標志性產(chǎn)物,它推動知識工程進入全新階段。近年來,百度知識圖譜和搜狗知立方成為代表性的中文知識圖譜,為搜索引擎提供準確和豐富的知識回答提供了核心知識支撐。此外,F(xiàn)reebase、ConceptNet、BabelNet、NELL、Yago、DBpedia等大規(guī)模知識圖譜為英語和漢語等語言的分析和理解、機器翻譯、問答和對話等自然語言處理應用任務提供了豐富的知識資源,直接推動了知識問答和對話等技術(shù)的實際落地。
以知識圖譜為代表的知識庫建設給產(chǎn)業(yè)界和學術(shù)界帶來了積極深遠的影響。以百度知識圖譜為例,該知識圖譜擁有數(shù)億實體和千億事實,具備豐富的知識標注與關(guān)聯(lián)能力,包括通用知識圖譜、行業(yè)知識圖譜和關(guān)注點圖譜等多維度知識圖譜,自2014年上線以來服務規(guī)模增長了300多倍。知識圖譜技術(shù)推動著搜索引擎往智能化發(fā)展,從而更好地理解用戶需求,并以更加便捷友好的呈現(xiàn)方式直接給用戶答案。從學術(shù)角度,越來越多的研究開始在自然語言處理模型中融入知識圖譜,使機器更好地理解自然語言,讓模型具有更強的學習能力和可解釋能力。當前,大數(shù)據(jù)和深度學習給自然語言處理帶來了突破性進展,同時也面臨著小數(shù)據(jù)場景、不可解釋和可控性差等一系列問題,導致自然語言處理研究開始逐漸進入一個平臺期。而以知識圖譜為代表的知識庫建設被認為是驅(qū)動自然語言處理產(chǎn)生下一個突破的關(guān)鍵技術(shù)。
4. 語言模型
語言模型(language model)最早來自語音識別研究,之后在自然語言處理中得到廣泛應用,其目的就是自動估計自然語言句子或詞語序列真實出現(xiàn)的概率,也即衡量句子或詞串的流暢程度和符合文法的程度。形式上,語言模型刻畫了一種條件概率,即給定前驅(qū)n-1個詞語的條件下,估計第n個詞語出現(xiàn)的概率。
由于n越大,n-1個詞語組成的序列出現(xiàn)的可能性越小,因此原始語言模型的條件概率難以計算。1980年Fred Jelinek等人假設語言模型條件概率符合n-1階馬爾科夫鏈:第n個詞語出現(xiàn)的概率僅依賴于之前n-1個詞語的歷史信息,也即n-元語法模型。n-元語法模型基于最大似然估計方法通過相對頻率計算概率,因數(shù)據(jù)稀疏問題可能出現(xiàn)零概率事件,即出現(xiàn)數(shù)據(jù)稀疏問題。為此,人們提出了加法平滑法(additive Smoothing)、古德圖靈法(Good-Turing)、線性插值(Linear Interpolation)、KN算法(Kneser-Ney Smoothing)和Katz平滑法等一系列平滑算法解決數(shù)據(jù)平滑問題。
為了更加有效地緩解相對頻率模型的數(shù)據(jù)稀疏和語義鴻溝等問題,Yoshua Bengio于2001年提出基于前饋神經(jīng)網(wǎng)絡的n-元語法模型,將每個詞語映射至低維實數(shù)向量,并在連續(xù)的實數(shù)向量空間中計算詞語序列的概率。鑒于n-元語法模型僅僅利用固定窗口大小的歷史信息,2010年,Tomas Mikolov等人提出基于循環(huán)神經(jīng)網(wǎng)絡的語言模型(neural language model),舍棄n階馬爾科夫鏈的假設,直接對n-1個詞語序列的歷史進行建模,即利用所有的歷史信息預測下一個詞語的出現(xiàn)概率。由于循環(huán)神經(jīng)網(wǎng)絡建模長距離依賴關(guān)系的能力受到限制,Alec Radford等人于2018年提出基于自注意力機制(self-attention)的語言模型,任意兩個詞語的依賴關(guān)系可以通過直接連接的方式進行度量,語言模型的性能和效率同時獲得實質(zhì)性提升。
語言模型被廣泛應用于中文輸入法、機器翻譯、自動摘要與人機對話等各種文本生成和文法自動校對等任務中,推動了這些任務的技術(shù)發(fā)展和產(chǎn)業(yè)應用。在統(tǒng)計機器學習時代,語言模型用來度量候選結(jié)果序列的出現(xiàn)概率,從候選結(jié)果列表中挑選出最流暢的候選。在深度學習時代,機器翻譯、自動摘要和人機對話等文本生成任務直接可以視為一個語言模型問題,在分布式表示和端到端建模方法的基礎上取得突破性進展。尤其是ELMo、GPT和BERT等預訓練模型的提出極大地推動了語言模型在各個自然語言處理任務上的應用。這類模型基于分布式表示和深度神經(jīng)網(wǎng)絡模型(尤其是多層自我注意力機制模型)以互聯(lián)網(wǎng)海量文本為輸入,學習一個通用的語言模型,能夠充分記憶上下文語義信息。若以該模型為基礎在不同自然語言理解任務上進行參數(shù)微調(diào),在很多任務上達到目前的最佳性能,例如在閱讀理解任務上已經(jīng)超越普通人類的水平。特別的,使用更大規(guī)模訓練數(shù)據(jù)的GPT-2和GPT-3模型可以自動生成行文流暢的新聞文本,充分體現(xiàn)了語言模型的優(yōu)勢。
5. 序列標注模型
序列標注模型就是利用機器學習方法為給定序列中的每個元素預測一個標簽。在自然語言處理任務中,作為處理對象的文本可以視為字符或單詞的序列。很多自然語言處理任務,例如以漢語分詞為代表的詞法分析、以依存關(guān)系分析為代表的句法分析和以語義角色標注為代表的語義分析等都可以形式化為序列標注問題,即為文本序列中每個字符或單詞預測一個標簽。自數(shù)據(jù)驅(qū)動的自然語言處理方法興起后,序列標注模型成為詞法、句法和語義分析等自然語言處理任務的主流方法,1990年代的隱馬爾科夫模型、2000年后的最大熵模型、支持向量機和條件隨機場模型,以及2010年代的深度學習模型是不同歷史時期典型的序列標注模型,在各自的歷史階段推動了自然語言處理技術(shù)的發(fā)展。
以漢語分詞為例,漢語書寫時字與字之間沒有空格,漢語分詞就是利用計算機將漢字序列自動準確地切分為詞語序列,是漢語句法、語義、篇章等基礎分析和各種中文信息處理應用的基礎。傳統(tǒng)基于詞典的模型很難處理歧義詞和未登錄詞語,Nianwen Xue(薛念文)等人于2002年提出由字構(gòu)詞的漢語分詞思想,將詞語中的每個字分為四類:詞首(Begin, B)、詞中(Middle, M)、詞尾(End, E)和單字詞(Single, S),將漢語分詞問題自然轉(zhuǎn)換為針對漢字的序列標注任務,使得最大熵、條件隨機場和循環(huán)神經(jīng)網(wǎng)絡等序列標注模型能夠應用于漢語分詞任務,極大提升了漢語分詞任務的性能。例如,在新聞領(lǐng)域的F1值從90%左右提升到超過97%,帶動了以漢語分詞為基礎的各種自然語言處理技術(shù)的發(fā)展和應用。
無論是學術(shù)界還是產(chǎn)業(yè)界,序列標注模型給自然語言處理技術(shù)的發(fā)展帶來了積極深入的影響。在學術(shù)界,序列標注模型已經(jīng)成為各種自然語言處理任務的基本處理范式。研究者將幾乎所有自然語言理解的研究問題都轉(zhuǎn)換為序列標注任務,特別是2018年谷歌提出的BERT預訓練語言模型,將11種自然語言理解任務統(tǒng)一于序列標注模型的框架下,取得了媲美人工水平的效果。在產(chǎn)業(yè)界,序列標注模型推動了自然語言處理技術(shù)的實用化。百度、搜狗等搜索引擎公司和京東、阿里巴巴等電商公司都在使用基于序列標注模型的自然語言理解技術(shù)提升用戶的滿意度。
6. 句法結(jié)構(gòu)理論和篇章表示理論
上個世紀50年代是句法理論發(fā)展的輝煌時期。1953年法國語言學家呂西安泰尼埃(Lucien Tesnière)發(fā)表《結(jié)構(gòu)句法概要》,1957年諾姆喬姆斯基(Avram Noam Chomsky)出版《句法結(jié)構(gòu)》,同年美國學者英格維(V. Yngve)發(fā)表《句法翻譯框架》,一批語言學理論相繼問世,由此開創(chuàng)了語言研究的新歷程,在自然語言處理領(lǐng)域近四十年盛行不衰,對于本領(lǐng)域的貢獻和影響毋庸置疑,功在千秋。尤其需要提及的是,喬姆斯基句法結(jié)構(gòu)理論不僅在自然語言處理領(lǐng)域廣泛應用,而且成為計算機編譯系統(tǒng)的理論基礎,同時對語音識別、模式識別和認知語言學等相關(guān)研究產(chǎn)生了深遠影響。
句法結(jié)構(gòu)理論主要用于分析句子中詞語之間的組合和依賴關(guān)系,其中,以喬姆斯基上下文無關(guān)文法(Context-Free Grammar, CFG)為基礎的短語結(jié)構(gòu)分析和以泰尼埃配價理論為基礎的依存關(guān)系分析是兩大主流技術(shù)。短語結(jié)構(gòu)分析技術(shù)將句子分析成層次化的短語結(jié)構(gòu)樹,該技術(shù)被廣泛應用于命名實體識別、詞性標注、語言教學、問答系統(tǒng)和機器翻譯等幾乎所有的自然語言處理任務,甚至在語音識別中也用到短語結(jié)構(gòu)分析技術(shù)。為了緩解和建模詞匯組合的歧義問題,概率上下文無關(guān)文法(Probabilistic Context-Free Grammar, PCFG)對上下文無關(guān)文法進行了擴展,能夠為句子找到最有可能的短語結(jié)構(gòu)樹,從而進一步提升了句法結(jié)構(gòu)分析的準確率和實用性。
依存關(guān)系分析主要用于刻畫詞語之間的語義依賴關(guān)系(或稱從屬關(guān)系),由于該技術(shù)直接從語義角度分析句子,因此在詞義消歧、文本蘊涵和推理、自動問答及機器翻譯等很多自然語言處理任務中同樣發(fā)揮了巨大作用。依存關(guān)系分析可以在短語結(jié)構(gòu)分析結(jié)果的基礎上通過轉(zhuǎn)換的方法實現(xiàn)。
另外,上個世紀60至80年代提出的格語法(Case Grammar)、詞匯功能語法(Lexical Functional Grammar, LFG)、管轄約束理論(Government and Binding theory, GB)和功能合一文法(Function Unification Grammar, FUG)等理論進一步豐富了句法和語義理論的發(fā)展,共同成為理性主義的自然語言處理方法中不可忽視的家族成員。由于句法理論為句子分析提供了結(jié)構(gòu)化信息,成為很多自然語言處理任務的關(guān)鍵技術(shù),因此在端到端的神經(jīng)網(wǎng)絡方法提出之前幾乎成為無法繞開的技術(shù)核心,甚至直到今天仍然在很多應用系統(tǒng)中發(fā)揮著不可替代的作用。例如,百度公司利用依存結(jié)構(gòu)文法分析用戶查詢的語義,準確把握用戶意圖,提升搜索結(jié)果的用戶滿意度;很多自動問答和客服系統(tǒng)是基于規(guī)則和模板實現(xiàn)的。
篇章(discourse)是由句子按照一定的邏輯語義順序組成的語言單位,包括段落、整篇文章或?qū)υ?,甚至一部著作也可算作一個篇章。因此,篇章理論研究的是段落或篇章中句子之間的組合和依賴關(guān)系。目前廣泛采用的篇章理論包括修辭結(jié)構(gòu)理論(rhetorical structure theory, RST)、中心理論(centering theory)、脈絡理論(veins theory)、篇章表示理論(discourse representation theory, DRT)和言語行為理論(speech act theory)等,而這些理論無一例外地來自西方語言學。漢語的篇章結(jié)構(gòu)與英文有明顯的區(qū)別,這是大家所共知的事實。針對漢語,我國宋柔教授提出的“廣義話題結(jié)構(gòu)理論”能夠較好地處理漢語中典型且常用的流水句,蘇州大學自然語言處理團隊提出了一種以篇章主次關(guān)系作為媒介,歸納出一個微觀和宏觀統(tǒng)一的多層篇章結(jié)構(gòu)表示體系,該體系為語料資源構(gòu)建和篇章語義分析與計算模型研究奠定了基礎,可應用于自動文摘與機器閱讀理解等領(lǐng)域。
近年來,基于篇章的問答、閱讀理解和機器翻譯成為人們關(guān)注的研究熱點。
7. 文本表示模型
文本是序列化和結(jié)構(gòu)化的語言表達。如何表示文本和如何計算文本之間的相似性一直是自然語言處理面臨的一個挑戰(zhàn)。文本表示模型旨在對文本進行高效準確地表示,為自然語言理解和語義計算提供基礎。文本表示模型的核心體現(xiàn)在基本單元詞匯的語義表示和詞匯表示到文本表示的語義組合方法。自然語言處理幾十年的發(fā)展歷程中,詞袋表示和分布式表示是文本表示的兩大經(jīng)典模型。
1954年Harris在《Distributional Structure》的文章中提出詞袋的概念,在隨后的幾十年中詞袋模型一直是文本表示的主流模型。詞袋模型是一種簡潔高效的文本表示方案,首先遍歷所有文本計算詞匯集合,然后將每個文本視為詞匯集合的一個子集,并賦予集合中的每個元素相應的權(quán)重,最終獲得文本的詞袋表示。其中,詞匯權(quán)重的計算是關(guān)鍵,一般可以采用布爾值(詞匯是否在文本中出現(xiàn))、頻率(詞匯的出現(xiàn)次數(shù))和詞頻-逆文檔頻率等方式進行估計。詞袋表示模型極大推動了文本匹配、文本分類和情感分析等自然語言處理任務的發(fā)展。并且,詞袋模型的概念也被成功應用于視覺和圖像領(lǐng)域,發(fā)展成為視覺詞袋模型,展現(xiàn)了該模型的重要意義和價值。
近年來,分布式表示進一步提升了文本表示模型的能力。以詞語的分布式表示為例,在傳統(tǒng)的基于離散符號的詞語表示方法中,由于只采用字符串匹配的方式提取特征并計算語言單元之間的相似性,這一方面容易導致數(shù)據(jù)稀疏問題,另一方面無法捕捉詞語之間的語義相似性。2003年,Yoshua Bengio提出采用低維連續(xù)的實數(shù)向量表示每個詞語,并以此為基礎學習n-元語法模型,標志了分布式文本表示的開端。詞匯的分布式表示解決了詞袋模型“非0即1”的問題,并且能夠在低維連續(xù)的實數(shù)向量空間中度量詞匯的語義距離,這樣數(shù)學上的連續(xù)函數(shù)、可導、可微操作都可以語義計算上得到應用,是語義計算模型描述能力大大增強。在詞匯分布式表示的基礎上,語義組合方式成為文本表示的焦點。前饋神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和Transformer網(wǎng)絡是語義組合的代表模型。前饋神經(jīng)網(wǎng)絡拼接固定窗口中相鄰詞匯的語義表示并通過線性和非線性映射獲得輸入文本的表示。循環(huán)神經(jīng)網(wǎng)絡從左往右或從右往左地順序組合詞匯的語義表示,并用最后時刻的隱藏狀態(tài)作為文本最終的語義表示。卷積神經(jīng)網(wǎng)絡自底往上不斷地卷積局部窗口信息,并通過池化的方式表示文本最重要內(nèi)容。2017年開始興起的Transformer模型通過詞匯間兩兩計算的方式更加高效地組合詞匯的語義從而獲得文本的語義表示。分布式文本表示模型極大地便利了自然語言的表示和計算,成為深度學習應用于自然語言處理任務的基石,推動了文本理解和機器翻譯等應用的突破性發(fā)展。
8. 自動問答與人機對話
自動問答和人機對話系統(tǒng)一直是自然語言處理和人工智能領(lǐng)域研究的熱點,其目標是利用計算機自動回答用戶所提出的問題以滿足用戶知識需求。不同于現(xiàn)有搜索引擎,問答系統(tǒng)是信息服務的一種高級形式,系統(tǒng)返回用戶的不再是基于關(guān)鍵詞匹配排序的候選問答列表,而是精準的自然語言答案。1950年,阿蘭圖靈以自動問答的實現(xiàn)方式提出了經(jīng)典的圖靈測試。從技術(shù)上,自動問答主要經(jīng)歷了檢索式問答和知識庫問答兩種范式。1999年,美國國家標準技術(shù)研究院組織的問答評測任務推動了檢索式問答技術(shù)的發(fā)展。隨著Freebase和DBpedia等知識圖譜的構(gòu)建和完善,基于知識庫的問答技術(shù)開始受到越來越多的重視。與自動問答相比,人機對話更加廣泛,是指讓計算機像人一樣通過自然語言與人類進行自由溝通和交流。除了自動問答,人機對話還包括聊天型對話、任務型對話和推薦式對話。1966年,歷史上第一個聊天機器人ELIZA在麻省理工學院誕生,主要功能是通過與病人聊天達到心理治療的目的。1995年,卡內(nèi)基梅隆大學開發(fā)出A.L.I.C.E聊天機器人。Siri是以任務型對話為主的智能助理的代表,于2011年正式發(fā)布。2015年百度研發(fā)推出了對話式智能秘書“度秘(Duer)”。2014到2016年,微軟、亞馬遜和谷歌分別推出了Cortana、Alexa和Assistant智能助理。自動問答和人機對話已經(jīng)成為人們生活中的常用工具。
2011年,IBM公司開發(fā)的沃森問答系統(tǒng)參加“危險邊緣”的知識競賽,一舉擊敗兩名頂級人類專家,獲得世界冠軍,標志著自動問答技術(shù)的突破性進展。據(jù)微軟報道,聊天機器人“微軟小冰”在全球已擁有6.6億用戶,1.2億月活躍用戶。亞馬遜公司表示,截止2019年,該公司已經(jīng)售出了超過1億臺Alexa智能助理終端??梢姡瑧糜谑謾C、電腦、智能家電等各類型終端的自動問答和人機對話已經(jīng)成為很多人生活中的一部分。
在學術(shù)影響方面,近年來的頂級會議投稿數(shù)據(jù)顯示,自動問答與人機對話已經(jīng)是最大的關(guān)注點。據(jù)2019年自然語言處理頂級國際會議ACL的統(tǒng)計,在20多個領(lǐng)域中,自動問答與人機對話的投稿量占據(jù)所有投稿量的11.6%。在產(chǎn)業(yè)影響方面,越來越多的公司重點投入對話系統(tǒng)的研發(fā),例如除了谷歌、微軟和亞馬遜等美國公司,國內(nèi)的百度、阿里巴巴和京東等公司都在發(fā)力人機對話系統(tǒng),尤其是智能助理和智能客服。
9. 機器翻譯
機器翻譯是自然語言處理技術(shù)最典型的應用,其目標就是利用計算機將一種自然語言(源語言)自動轉(zhuǎn)換為另一種自然語言(目標語言)的技術(shù),是自然語言處理的代表性應用技術(shù),是突破全球語言障礙的關(guān)鍵。根據(jù)系統(tǒng)輸入的不同,機器翻譯包括文本翻譯和語音翻譯兩種。語音翻譯是語音識別、文本翻譯和語音合成三種技術(shù)的集成。
自1947年機器翻譯概念正式提出以來,機器翻譯經(jīng)歷了七十多年的發(fā)展過程。1990年之前,基于規(guī)則的方法是機器翻譯的主流,由通曉兩種語言的專家設計語言轉(zhuǎn)換規(guī)則,實現(xiàn)源語言文本到目標語言文本的自動翻譯。1990年至今,隨著平行語料數(shù)據(jù)規(guī)模的不斷增長和機器學習理論方法的不斷發(fā)展,數(shù)據(jù)驅(qū)動的機器翻譯方法占據(jù)主導地位,其中包括統(tǒng)計機器翻譯和神經(jīng)機器翻譯。
1990年至2014年左右,統(tǒng)計機器翻譯是主流。該技術(shù)從雙語對照的訓練語料中學習兩種語言詞匯、短語和片段之間的映射關(guān)系(翻譯規(guī)則)并估計每條翻譯規(guī)則的概率,最終對未見的測試句子利用翻譯規(guī)則進行解碼獲得目標語言譯文?;诮y(tǒng)計機器翻譯技術(shù),谷歌2006年上線了第一個機器翻譯在線系統(tǒng),百度2011年也上線了以漢語為中心的在線翻譯系統(tǒng),使機器翻譯快速進入大眾的學習、工作和生活中。然而,統(tǒng)計機器翻譯的譯文質(zhì)量十幾年里一直無法令人滿意,該模型中的詞語對齊、翻譯模型、語言模型和調(diào)序模型等多個人工設計模塊的級聯(lián)范式受到錯誤傳遞的嚴重影響,而且這種基于離散符號匹配的框架缺乏相似語義建模的能力、無法充分擬合訓練數(shù)據(jù)。2014年,Sutskever等人提出端到端序列生成的神經(jīng)網(wǎng)絡機器翻譯模型,它在分布式表示的基礎上,直接采用編碼器-解碼器的全新范式對機器翻譯進行建模,編碼器將源語言句子編碼為低維連續(xù)的語義向量,解碼器將該語義向量解碼生成目標語言的句子。這種全新的端到端序列生成范式直接擬合兩個序列之間的映射函數(shù),極大提升了模型的學習能力和泛化能力。隨后,Bahdanau等人于2015年將注意力機制模型首先引入端到端的機器翻譯任務,為預測目標語言句子每個詞語動態(tài)計算應該關(guān)注的源語言句子的局部上下文信息,極大地提升了譯文質(zhì)量和解碼過程的可解釋性,推動了機器翻譯技術(shù)的變革性發(fā)展。注意力機制也被成功應用于自動問答、閱讀理解和人機對話等各種自然語言處理任務以及圖像和視覺任務,成為模式識別領(lǐng)域的一個標準模塊。2016年谷歌上線基于深度學習的端到端機器翻譯系統(tǒng),分析證明在多個語言對上相比統(tǒng)計機器翻譯模型性能提升50%以上。2017年谷歌再次提出Transformer機器翻譯模型,進一步改善了機器翻譯的效果。
近年來隨著語音識別、機器翻譯和語音合成技術(shù)的快速進展,語音翻譯的性能也在不斷提升,甚至在簡單的日常口語對話場景下,說話人發(fā)音基本標準時,漢英、漢日等大語種之間的口語翻譯基本可以滿足普通用戶的簡單翻譯需要。
在學術(shù)影響方面,機器翻譯一直是向不同領(lǐng)域不同學科輸出技術(shù)的研究方向。端到端建模和注意力機制成為自然語言文本生成和諸多人工智能任務的基本建模方法。在產(chǎn)業(yè)影響方面,谷歌、百度、阿里、有道和搜狗等公司基于端到端建模和注意力機制開發(fā)的在線翻譯系統(tǒng)成為人們?nèi)粘I钪卸嗾Z言信息獲取的必備工具,據(jù)谷歌、百度和阿里巴巴等公司報道,在線機器翻譯每天提供幾千億字符的翻譯服務需求;科大訊飛、百度和搜狗等公司基于此技術(shù)研發(fā)的多語言翻譯機已經(jīng)成為人們出國旅游有效的日常語言交流工具。
10. 聽覺場景分析與語音增強
語音增強的目標是提高帶噪語音的可懂度和感知質(zhì)量,旨在降低噪聲干擾的同時保持語音不失真,它對語音識別和語音通信等現(xiàn)實應用具有重要價值,是語音信號處理領(lǐng)域的一個重要研究課題。
聽覺場景分析是語音增強中一個非常經(jīng)典的方法,它是Bregman在1990年根據(jù)人類對聲音信號的處理原理和認知心理學而首次提出的概念。人類聽覺系統(tǒng)對語音信號的感知能力大大超過目前的信號處理水平,特別是在強噪聲干擾下,人類能有選擇地“聽取”所需的內(nèi)容,即所謂的“雞尾酒會效應”。聽覺場景分析是解決這一問題的關(guān)鍵技術(shù)。目前針對聽覺場景分析的研究有兩種方法:一種是從人的聽覺生理及心理特征出發(fā),研究人在聲音識別過程中的規(guī)律,即聽覺場景分析(auditory scene analysis, ASA);另一種是利用計算機技術(shù)來模仿人類對聽覺信號的處理過程,即計算聽覺場景分析(computational auditory scene analysis,CASA)。計算聽覺場景分析技術(shù)以聽覺場景分析為機理,試圖通過計算機模擬人耳對聲音的處理過程來解決語音分離問題,是一種結(jié)合人類聽覺特性語音增強方法。
語音增強主要用于抑制噪聲、混響、人聲等干擾同時增強目標語音,它主要包括語音降噪,語音去混響和語音分離等技術(shù)。早期的語音增強主要通過信號處理方法抑制干擾信號,如譜減法、維納濾波法、最小均方誤差法等。這些方法計算復雜度相對較低,但是難以有效抑制非平穩(wěn)干擾?;邴溈孙L陣列的語音增強方法可以有效增強目標方向的語音,但通常受限于麥克風陣列的結(jié)構(gòu)。非負矩陣分解(Nonnegative Matrix Factorization, NMF)算法是另一類語音增強方法,它通過矩陣分解的方式分離出有效的語音成分,去除干擾信號。這類方法的缺點是計算復雜度相對較高。近年隨著深度學習的成功,基于深度學習的單通道語音增強方法也越來越流行。汪德亮等人利用深度神經(jīng)網(wǎng)絡去學習時頻域的聲學特征和目標掩蔽值之間的映射,有效提升了語音增強算法的性能。李錦輝等人提出了另一種基于深度學習的語音增強方法,利用深度神經(jīng)網(wǎng)絡建立噪聲信號的幅值譜和干凈目標語音的幅值譜之間的映射關(guān)系。近幾年,循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和對抗網(wǎng)絡等網(wǎng)絡結(jié)構(gòu)也應用于語音增強中,并且都取得了較好的效果。同時,為了進一步提升語音增強的性能,近年出現(xiàn)了基于端到端的語音增強方法,其直接利用時域的波形點作為特征來進行語音增強。這類方法可以很好地解決以前方法中增強后幅值譜和相位譜不匹配的問題?;谏疃葘W習的語音增強方法可以有效抑制復雜場景下噪聲、混響、人聲等干擾。
在學術(shù)影響方面,語音增強由傳統(tǒng)的信號處理方法轉(zhuǎn)向基于深度學習的方法,從而提升復雜場景下的語音建模能力。在產(chǎn)業(yè)影響方面,谷歌、百度、科大訊飛、阿里巴巴和搜狗等公司已經(jīng)將基于深度學習的語音增強方法作為語音識別和聲紋識別的前端模塊,應用到輸入法、智能家居、智能車載、語音質(zhì)檢和法庭轉(zhuǎn)寫系統(tǒng)等產(chǎn)品中。
11. 語音識別
語音識別是指利用計算機,自動地將人類的語音轉(zhuǎn)換為其對應的語言符號的過程。語音識別是人類和計算機利用語音進行交互的基礎性技術(shù),也作為人工智能的代表性技術(shù)出現(xiàn)在眾多科幻作品中。從1952年貝爾實驗室早期的數(shù)字識別,到現(xiàn)在人們語音輸入法走進了人們的生活,語音識別經(jīng)歷了模式匹配,統(tǒng)計方法,一直到當代深度學習方法的發(fā)展。自從1980年代開始,語音識別一直是大規(guī)模數(shù)據(jù)驅(qū)動的統(tǒng)計學習方法的代表性技術(shù)。從2010年代開始,數(shù)萬小時級別的標注語音的積累,高性能計算設備的發(fā)展,以及深度學習技術(shù)的普及,大大提升了語音識別的準確率,將語音識別帶入了人們的生活。
早期的語音識別技術(shù)采用的是模板匹配的方法,即將待測語音與模板庫中的模板進行比對,看和哪一個接近,就認為待測語音是那一個詞。這一時期的代表性工作是動態(tài)時間彎折技術(shù)(Dynamic Time Warping,DTW),其可以計算兩個未對齊序列之間的相似程度。20世紀60年代,隱馬爾可夫模型(Hidden Markov Models, HMMs)被引入到語音識別中。到80年代中期,Lawrence Rabiner和莊炳煌等將高斯混合模型引入到隱馬爾可夫模型中,極大地提升了隱馬爾可夫模型建模能力。20世紀80年代末,卡內(nèi)基梅隆大學博士生李開復基于隱馬爾可夫模型開發(fā)了第一個大詞匯量說話人無關(guān)的連續(xù)語音識別系統(tǒng)Sphinx。然而截至2010年前,語音識別的準確率還不夠高,依然無法實用。2012年前后,鄧力、俞棟等在Hinton的協(xié)助下,將深度神經(jīng)網(wǎng)絡用于對語音識別聲學模型進行建模,大大提升了語音識別系統(tǒng)的性能,在Switchboard數(shù)據(jù)集上的識別錯誤率相對下降30%。此后一系列深度學習聲學建模技術(shù),如卷積神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡等,極大地提升了識別準確性。聯(lián)結(jié)主義時序分類(Connectionist Temporal Classification,CTC)被提出用于端到端聲學模型,該模型摒棄了隱馬爾可夫模型,直接對聲學特征進行建模,不僅克服了高斯混合模型-隱馬爾科夫模型生成強制對齊信息的帶來的誤差,而且簡化了聲學模型的訓練步驟。在語言模型方面,早期的語言模型采用基于馬爾可夫假設的N元語法語言模型;近年來,基于循環(huán)神經(jīng)網(wǎng)絡的語言模型將上下文信息編碼為隱變量,理論上可以記憶無限長的上下文信息,精度相比N元語法大大提升。近幾年,一系列完全采用深度神經(jīng)網(wǎng)絡的端到端語音識別系統(tǒng)被很多學者關(guān)注。相比于非端到端系統(tǒng),端到端系統(tǒng)語音語言聯(lián)合建模,體積更小,便于應用在終端,并且還可以大大簡化訓練流程。端到端語音識別模型主要可以概括為兩類:基于注意力機制的編碼器解碼器模型(Attention Based Encoder-Decoder Models)和循環(huán)神經(jīng)網(wǎng)絡轉(zhuǎn)換器(Recurrent Neural Network Transducers, RNN-Transducers)?;谧⒁饬C制的編碼器解碼器模型是將聲學特征編碼為隱變量,然后利用條件化的語言模型逐字地生成標注序列。循環(huán)神經(jīng)網(wǎng)絡轉(zhuǎn)換器是利用多層感知機融合聲學預測和語言預測,訓練時極大化所有可能的對齊情況,這種模型的優(yōu)點是可以實時解碼。
隨著語音識別技術(shù)的不斷成熟,越來越多的研究者開始關(guān)注復雜場景下的語音識別技術(shù),例如面對口音、不同信道、口語化、多語言以及低資源等場景下的語音識別。針對復雜聲學環(huán)境,與前端語音增強模塊進行結(jié)合,來提高聲學魯棒性?;趯褂柧殻ˋdversarial Training)來提取在噪聲,口語,信道,口音方面更為魯棒的聲學特征,可以大大提升了模型的魯棒性。對于多語言語音識別,為了搭建統(tǒng)一的多語言語音識別框架,通常采用在傳統(tǒng)語音識別中構(gòu)建統(tǒng)一音素建模單元的方法。然而這類方法對于每一種語言都需要大量的專家知識,因此,在端到端語音識別中廣泛使用Unicode編碼作為建模單元。在小語種低資源語音識別中,基于遷移學習(Transformer Learning)的統(tǒng)一表示被成功應用于這一類任務。進一步,基于元學習(Meta Learning)的多語言語音識別模型預訓練方法也在該任務上取得了成功。
在學術(shù)影響方面,作為一種典型的序列到序列的轉(zhuǎn)換問題,語音識別是模式識別學科的重要研究課題。一系列針對序列問題的建模技術(shù)在語音識別的研究中誕生或發(fā)展,如隱馬爾可夫模型,深度神經(jīng)網(wǎng)絡,聯(lián)結(jié)主義時序分類,編碼器-解碼器模型等。在產(chǎn)業(yè)應用方面,語音識別是人機語音交互的第一關(guān),是讓機器聽懂人聲音的“耳朵”,可以廣泛地應用在人機對話、智能語音助手、智能家居系統(tǒng)、輸入法、機器人等產(chǎn)品中。語音識別還可以應用在會議速記、字幕生成、語音翻譯等應用中。
12. 語音合成
語音合成又稱為文語轉(zhuǎn)換(Text-to-Speech, TTS),指從文本信息到語音信號的轉(zhuǎn)化過程,其主要目標為讓機器會更加擬人地說話。語音合成技術(shù)起源于18世紀,發(fā)展至今已有兩百多年,按時間順序,語音合成的發(fā)展大致經(jīng)歷了機械式、電子式以及計算機的語音合成等三個階段。
機械式語音合成器的研究起源于歐洲,研究的重點主要集中在從生理角度模仿人類的發(fā)音器官,離實際應用還相距很遠,但這些努力在電子式語音合成器出現(xiàn)之前做了很多有益的探索。20世紀初葉,無線電技術(shù)的進步使得采用電子的方法生成聲音成為可能。但電子式語音合成器時代,合成聲音音質(zhì)還是不理想,隨著通訊技術(shù)的發(fā)展,人們對發(fā)音機理的認識逐漸完善,這也為基于計算機的語音合成奠定了基礎。隨著20世紀計算機技術(shù)的迅猛發(fā)展和計算機硬件設備的不斷提高,語音合成技術(shù)進入了計算機語音合成時代,其分別經(jīng)歷了線性預測編碼器技術(shù)、串、并聯(lián)混合型的共振峰合成器、基于時域波形修改的基音同步疊加算法等算法,這些算法使波形拼接語音合成技術(shù)迎來了一次發(fā)展高峰。20世紀末,統(tǒng)計參數(shù)語音合成(Statistical Parametric Speech Synthesis, SPSS)逐漸成為了新的主流,其典型代表是基于隱馬爾科夫模型(Hidden Markov Model, HMM)的語音合成,相應的合成系統(tǒng)稱為基于HMM的語音合成系統(tǒng)。該方法的基本思想是,基于統(tǒng)計建模和機器學習的方法,利用語料庫進行訓練,自動尋找從文本特征到聲音參數(shù)間的映射關(guān)系,達到快速構(gòu)建語音合成系統(tǒng)的目的。2006年以來,基于神經(jīng)網(wǎng)絡的建模方法在機器學習的各個運用領(lǐng)域都表現(xiàn)出優(yōu)于傳統(tǒng)模型的能力。自2013年開始,在統(tǒng)計參數(shù)語音合成領(lǐng)域,深度學習也取得了迅速發(fā)展,在系統(tǒng)中的韻律模型、聲學模型、參數(shù)生成、聲碼器建模等方面均取得顯著提升,正逐漸取代基于HMM的參數(shù)語音合成成為主流的建模方法。近年來,許多復雜的機器學習任務受益于強有力的計算模型而變得簡單,也催生了端到端的語音合成建模方法,如谷歌提出了文本到聲學參數(shù)的映射框架Tacotron,以及聲碼器模型WaveNet等。隨后谷歌提出的聲碼器WaveRNN,可應用在手機,嵌入式等資源比較少的系統(tǒng)。此外,將線性預測與遞歸神經(jīng)網(wǎng)絡相結(jié)合的WaveRNN變種LPCNet被提出,顯著提高語音合成的效率進一步提高。這種端到端建模方法能化繁為簡,降低了系統(tǒng)構(gòu)建的難度,也有效避免傳統(tǒng)方法多階段建模導致的誤差累積。不僅如此,端到端語音合成方法還取得了性能上的大幅度提升,甚至在某些數(shù)據(jù)集上達到了媲美真實聲音的水平。此外,以端到端模型為基礎,以全局嵌入風格嵌入向量為核心,針對低資源的多風格個性化語音合成也成為了研究熱點,僅采用數(shù)十分鐘甚至幾分鐘的目標語料即可達到較高相似度的合成水平。
在學術(shù)影響方面,語音合成是一種將文本序列轉(zhuǎn)換為語音序列的生成問題,屬于模式識別學科的重要研究課題。一系列針對序列生成問題的建模技術(shù)在語音合成的研究中得到迅速發(fā)展。在產(chǎn)業(yè)應用方面,語音合成技術(shù)作為讓機器成為會說話的“嘴巴”,已經(jīng)廣泛應用于如下場景:語音交互、智能家居、智能客服、閱讀、教育、娛樂、可穿戴設備,涉及軍事、國防、政府、金融等不同領(lǐng)域,其應用產(chǎn)品在人們?nèi)粘I钪须S處可見。
*本文來自模式識別國家重點實驗室組織發(fā)布的模式識別學科發(fā)展報告,已得到模式識別國家重點實驗室授權(quán)發(fā)布。