最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

“無聲的”識(shí)別:AI能否轉(zhuǎn)錄它從未聽過的語(yǔ)言?

2023-08-16 20:46 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿
簡(jiǎn)而言之,可以轉(zhuǎn)錄。但由于單詞錯(cuò)誤率(WER )上升了約70%,我們可能會(huì)想知道何必如此大費(fèi)周章。

事實(shí)證明,原因有多方面,包括商業(yè)、學(xué)術(shù)、人道主義等原因,且極具說服力。聯(lián)合國(guó)預(yù)測(cè),語(yǔ)言多樣性在今后將面臨考驗(yàn),因此宣布了“國(guó)際土著語(yǔ)言十年”議程,我們現(xiàn)在已經(jīng)進(jìn)入該議程的第二年。在當(dāng)今全世界使用的7000多種語(yǔ)言中,近一半被認(rèn)為是瀕危語(yǔ)言,對(duì)其所不可或缺的文化和知識(shí)系統(tǒng)構(gòu)成威脅。

幾個(gè)世紀(jì)以來,全球化和殖民化一直在加速語(yǔ)言的消亡。令人擔(dān)憂的是,日益數(shù)字化的世界也只迎合了世界上極少數(shù)語(yǔ)言,更加速了這一進(jìn)程。

然而,將人機(jī)協(xié)作集中于少數(shù)主要語(yǔ)言的技術(shù)也可以用于語(yǔ)言保護(hù)及振興工作。自動(dòng)語(yǔ)音識(shí)別(ASR)是用于記載語(yǔ)言的得力工具,特別是在缺乏人工轉(zhuǎn)錄資源的情況下,可以促進(jìn)語(yǔ)言的學(xué)習(xí)和保護(hù)。

傳統(tǒng)上,ASR系統(tǒng)采用目標(biāo)語(yǔ)言的配對(duì)音頻和轉(zhuǎn)錄數(shù)據(jù)進(jìn)行訓(xùn)練。盡管Meta的XLS-R系統(tǒng)Google的通用語(yǔ)音模型(Universal Speech Model)等在多語(yǔ)言語(yǔ)音識(shí)別上取得了最新突破,通過對(duì)大量未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練來促進(jìn)對(duì)低資源語(yǔ)言的保護(hù),但它們?nèi)匀粚?duì)標(biāo)記語(yǔ)音的ASR進(jìn)行了微調(diào)。OpenAI的Whisper系統(tǒng)其英語(yǔ)轉(zhuǎn)錄的準(zhǔn)確性可與人類相媲美,采用多語(yǔ)言配對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。

那么沒有標(biāo)記語(yǔ)音數(shù)據(jù)的語(yǔ)言呢?又或是根本沒有語(yǔ)音數(shù)據(jù)的語(yǔ)言?


一項(xiàng)艱巨的任務(wù)

美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)的研究人員正在研究如何將ASR支持的語(yǔ)言從幾百種增加到數(shù)千種。這項(xiàng)研究的關(guān)鍵動(dòng)機(jī)之一是語(yǔ)言保護(hù),因此把重點(diǎn)放在音頻數(shù)據(jù)稀缺或沒有音頻數(shù)據(jù)的瀕危語(yǔ)言。他們?cè)贗nterspeech 2022大會(huì)上展示的ASR2K系統(tǒng)(此語(yǔ)音識(shí)別系統(tǒng)大約可識(shí)別2000種無音頻的語(yǔ)言)有望取得成功,但到目前為止,其平均單詞錯(cuò)誤率為70%,這令其難以成為人工轉(zhuǎn)錄的強(qiáng)有力替代品。

坦白說,轉(zhuǎn)錄一種未知的語(yǔ)言對(duì)人類而言也是一項(xiàng)艱巨的任務(wù),即便是受過語(yǔ)音轉(zhuǎn)錄專門訓(xùn)練的語(yǔ)言學(xué)家也概莫能外。用對(duì)應(yīng)于語(yǔ)音或音素(phone)的一組符號(hào)來表示發(fā)音的方法對(duì)瀕危語(yǔ)言有幾個(gè)好處,這也是ASR2K對(duì)聞所未聞的語(yǔ)言進(jìn)行解碼的關(guān)鍵能力。

音素相對(duì)獨(dú)立于語(yǔ)言,因此可以基于足夠多樣化的多語(yǔ)言音頻數(shù)據(jù)來識(shí)別音素。這也正是ASR2K的嘗試。由于語(yǔ)言學(xué)家在該領(lǐng)域數(shù)十年來的努力,音素也可以轉(zhuǎn)化為對(duì)應(yīng)的音位(phoneme),這是一種不同類型的語(yǔ)音單元,往往在書寫系統(tǒng)中具有更緊密的對(duì)應(yīng)關(guān)系。

ASR系統(tǒng)通常借助發(fā)音詞典,使用從文本語(yǔ)料庫(kù)訓(xùn)練得到的語(yǔ)言模型(LM)來將音位轉(zhuǎn)換為可能的單詞序列。對(duì)于最先進(jìn)的ASR系統(tǒng),語(yǔ)言模型的多樣性和大小對(duì)轉(zhuǎn)錄準(zhǔn)確性起著決定性作用??▋?nèi)基梅隆大學(xué)的研究人員還發(fā)現(xiàn),他們能提供的目標(biāo)語(yǔ)言文本數(shù)據(jù)越多,ASR2K的轉(zhuǎn)錄準(zhǔn)確性就越高
。

然而,對(duì)于瀕危語(yǔ)言來說,文本數(shù)據(jù)同樣很少,這些語(yǔ)言通常缺乏標(biāo)準(zhǔn)化的拼寫體系。有些語(yǔ)言的書寫系統(tǒng)缺乏鍵盤輸入、字體和/或萬國(guó)碼(Unicode)的支持,許多語(yǔ)言純粹是口語(yǔ)。雖然語(yǔ)音轉(zhuǎn)錄可在語(yǔ)言文獻(xiàn)方面有一些用處,但如果沒有語(yǔ)言模型的幫助,其準(zhǔn)確性可能存疑,而缺乏單詞邊界(word boundary)也會(huì)使其難以閱讀和分析。

幸運(yùn)的是,研究揭示了對(duì)非書面語(yǔ)言的一些替代方案,結(jié)果令人鼓舞。可以訓(xùn)練語(yǔ)音到意圖(speech-to-meaning)模型,讓它去學(xué)習(xí)語(yǔ)音的語(yǔ)義表示,并與翻譯后的文本或圖像對(duì)應(yīng)起來。通過巧妙避開標(biāo)準(zhǔn)化寫作系統(tǒng)的需求,這種方法為口頭語(yǔ)言開辟了一個(gè)充滿可能性的語(yǔ)音技術(shù)世界。


無利基市場(chǎng)

如果這些聽起來像是ASR在學(xué)術(shù)和人道主義方面的利基應(yīng)用,請(qǐng)?jiān)偎伎家幌隆?br>大規(guī)模的多語(yǔ)言擴(kuò)張已成為各大科技公司的首要任務(wù),比如,亞馬遜目標(biāo)將虛擬助手技術(shù)擴(kuò)展到1000種語(yǔ)言,谷歌也提出了“千種語(yǔ)言倡議”(1,000 Languages Initiative)。

Meta發(fā)起的“不落下任何語(yǔ)言”項(xiàng)目(No Language Left Behind)已經(jīng)使用翻譯文本載體,為以口語(yǔ)為主的閩南語(yǔ)(Hokkien)開發(fā)了一個(gè)語(yǔ)音到語(yǔ)音翻譯系統(tǒng)。
盡管資源并不短缺,但這些公司渴望擴(kuò)大語(yǔ)言覆蓋范圍,同時(shí)盡可能少地為耗時(shí)的人工轉(zhuǎn)錄付費(fèi)。隨之而來的是人工智能殖民主義的風(fēng)險(xiǎn),使少數(shù)民族的文化和語(yǔ)言被進(jìn)一步邊緣化。

為了防范這種情況,讓社群團(tuán)體參與開發(fā)適合其語(yǔ)言的技術(shù)非常重要。Te Hiku Media是一家毛利語(yǔ)(Māori)廣播電臺(tái),該電臺(tái)與其社群合作,為毛利語(yǔ)(也稱為te reo)開發(fā)了行之有效的ASR,尤其強(qiáng)調(diào)數(shù)據(jù)主權(quán)對(duì)土著語(yǔ)言的重要性,這一點(diǎn)在他們的《Kaitiakitanga License》文件中已正式確立。

如果大型科技公司真正致力于打造更具包容性和負(fù)責(zé)任的人工智能,以保護(hù)全世界語(yǔ)言的豐富性,那么這未嘗不是一個(gè)很好的起點(diǎn)。

原文網(wǎng)址 https://slator.com/speechless-recognition-can-ai-transcribe-language-its-never-heard/

特別說明:本文內(nèi)容選自Slator官網(wǎng),僅供學(xué)習(xí)交流使用,如有侵權(quán)請(qǐng)后臺(tái)聯(lián)系小編刪除

- END -

摘譯編輯:李春郁

推文編輯:高菲

“無聲的”識(shí)別:AI能否轉(zhuǎn)錄它從未聽過的語(yǔ)言?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
泰州市| 咸阳市| 筠连县| 灵山县| 奉化市| 广东省| 宁晋县| 金塔县| 澄城县| 建昌县| 军事| 柳林县| 呼伦贝尔市| 怀宁县| 千阳县| 博湖县| 闵行区| 醴陵市| 柯坪县| 三门县| 巴东县| 长岭县| 涪陵区| 左权县| 海盐县| 洛川县| 丘北县| 沙湾县| 临泽县| 桃园市| 大庆市| 徐州市| 江达县| 同仁县| 左贡县| 涿鹿县| 加查县| 东宁县| 黄梅县| 河南省| 且末县|