最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

《WeNet語音識(shí)別實(shí)戰(zhàn)》答疑回顧(二)

2022-07-26 22:31 作者:語音之家  | 我要投稿



問 1:這個(gè)熱詞文件,有行數(shù)限制么?比如:3萬行,可以么?

答:沒有限制,但是多了效果不一定好。


問 2:熱詞輸出帶上 context 的標(biāo)志了,是不是通過參數(shù)可以控制?還是要改下代碼,去掉?

答:可以看一下 decoder/context_graph.cc
后續(xù)新版的熱詞不會(huì)更改識(shí)別結(jié)果,而是返回識(shí)別結(jié)果的同時(shí),額外返回識(shí)別到的熱詞列表,可以關(guān)注一下。


問 3:我們測試websocket server 在高并發(fā)連接情況下出現(xiàn)連接慢的情況,這個(gè)是同時(shí)100個(gè)ws連接下出現(xiàn)的。這個(gè)有什么好的解決辦法嗎?

答:可以嘗試一下grpc。


問 4:目前如果用WeNet,如果要使用一臺(tái)服務(wù)器支持100個(gè)并發(fā),這樣需要什么要配置才能滿足要求?

答:16c應(yīng)該就能滿足,在虛擬機(jī)上32c可以實(shí)現(xiàn),實(shí)時(shí)內(nèi)存3G左右,如果rtf 按 0.2 算的話,一核能搞定 5 并發(fā),可以具體測一下 rtf。


問 5:conf中shuffle和sort為什么不沖突,而且注解說sort size必須小于shuffle size

答:目的不一樣,sort目的是使一個(gè)batch中的wav數(shù)據(jù)長度一致。shuffle是打亂整個(gè)數(shù)據(jù)集中數(shù)據(jù)的順序。


問 6:sort是讓一個(gè)batch內(nèi)的音頻按順序排列嗎?

答:通過排序使batch中音頻數(shù)據(jù)長度差距不大。


問 7:最后一個(gè)模型量化,在x86上也是有必要的嗎?速度會(huì)提升多少?

答:x86略微改善,android提升兩倍。具體RTF實(shí)驗(yàn)結(jié)果在WeNet第一版本論文中有。


問 8:這里用conv2d做降采樣的原理是什么?為什么用兩個(gè)conv2d,第一次conv2d通道是從1->odim,第二次conv2d從odim->odim?第一次通道數(shù)為什么要改變?

答:2d卷積用stride=2,就可以把原來的W*H的輸入變?yōu)閃/2*H/2的輸入。就降采樣了。

多個(gè)通道有多個(gè)卷積核,可以處理更多細(xì)節(jié)。

也可以不變,你就一直用1個(gè)channel也行。為啥圖像一開始是3個(gè)channel,后面channel就變成32或者更大,一個(gè)道理。


問 9:實(shí)戰(zhàn)課程AIshell-1模型訓(xùn)練,到stage4 neural network training訓(xùn)練的時(shí)候報(bào)了這個(gè)runtime 的錯(cuò),是什么原因?

答:pytorch版本小于1.10.0


問 10:單并發(fā),用的WeNetspeech離線大模型以及l(fā)ibtorch1.10,rescore和search都在500ms+,,為什么這么慢呢?一般TLG有多大呀?語言模型大小會(huì)很影響速度的吧?

答:Search很快,rescoring一般100~200ms,WeNetSpeech模型很大,這個(gè)時(shí)間和機(jī)器性能也有關(guān)系,語言模型大小不太影響速度。


問 11:aishell example運(yùn)行stage 4,遇到這個(gè)報(bào)錯(cuò),請問是什么問題?

答:使用 pytorch 1.10


問 12:如果想要在WeNet放出來的checkpoint模型u2pp_conformer_exp上增量訓(xùn)練,是要用WeNetspeech/run.sh, 還是可以用aishell/run.sh呢?還是說將下載的ckpt/train.yaml放到WeNetspeech/conf里面,然后跑WeNet speech/run.sh ?

答:都可以,但需要修改配置文件和模型匹配,可能也需要調(diào)整學(xué)習(xí)率等參數(shù),建議盡量使用WeNetspeech對應(yīng)的腳本。


問 13:模型測試時(shí),使用的average model,這是什么方法?有沒有參考資料。

答案:可以參考theoreticalecology.wordpress.com


問 14:我想訓(xùn)中英文混合的模型,是不是multi cn,是最好的模版?

答:multi_cn是將開源的數(shù)據(jù)集做整合,基于此調(diào)試的相關(guān)參數(shù)達(dá)到模型最優(yōu)。


問 15:WeNetspeech數(shù)據(jù)集的采集處理腳本代碼,有沒有開源呢?能否用這個(gè)代碼自己去采集數(shù)據(jù)?

答:不開源。


問 16:用了aishell的數(shù)據(jù)集報(bào)這種問題的原因是什么?

答:腳本中的stage0的download_and_untar 里會(huì)自動(dòng)解壓,手動(dòng)下載的數(shù)據(jù)需要自己解壓。


問 17:stage1這個(gè)報(bào)錯(cuò)是為什么?

sudo了一下,conda,pytorch環(huán)境都已經(jīng)按要求配置好了。

答:錯(cuò)誤提示沒有這個(gè)目錄下創(chuàng)建文件的權(quán)限,用“sudo chmod -R 777 目錄”命令更改文件夾權(quán)限。


問 18:想著用自己電腦訓(xùn)模型,理論上可以嗎?

答:理論上,pytorch是支持cpu訓(xùn)練的,

把代碼的device從gpu改成cpu 除了慢應(yīng)該是能跑。


問 19:請問cmake -B build的時(shí)候報(bào)這個(gè)錯(cuò),大家有遇到的嗎?

答:請用 msvc,而不是 mingw


問 20:配置了msvc和cmake,但是這里git默認(rèn)用MinGW64,如何修改?

答:看環(huán)境變量的順序,msvc 的 cl 也要添加到環(huán)境變量。


問 21:配置了git config --global http.github.com.proxy?127.0.0.1:10809還是下載不了,是什么原因呢?

答:可以參考github.com/shadowsocks/


問 22:在使用websocket_server_main的時(shí)候發(fā)現(xiàn)內(nèi)存會(huì)隨請求數(shù)不斷增長,但是當(dāng)識(shí)別任務(wù)結(jié)束連接斷開的時(shí)候內(nèi)存并未被釋放,這大概是哪部分代碼的引起的呢?

答:不是WeNet的問題,是libtorch和onnx內(nèi)部的內(nèi)存管理機(jī)制,可以在必要的地方強(qiáng)制free libtorch官方github里有相應(yīng)issues。


問 23:執(zhí)行./Debug/decoder_main.exe --help出現(xiàn)這樣的錯(cuò)誤,說找不到c10.dll,大佬們怎么解決呀?

我把本地的c10.dll放進(jìn)去又會(huì)出現(xiàn)其他dll找不到,而且c10.dll就在build目錄下。

答:需要處于 build 目錄下。



問 24:單機(jī)多卡訓(xùn)練,WeNet的train.py總是在init_process_group就不往前了,是有什么特殊運(yùn)行方式呢?

答:需要?jiǎng)h除 ddp_init


問 25: 想問一下 加語言模型后轉(zhuǎn)譯結(jié)果都是生僻字,是什么原因呢?

答:檢查一下 words.txt,應(yīng)該用語言模型對應(yīng)的詞典。


《WeNet語音識(shí)別實(shí)戰(zhàn)》答疑回顧(二)的評(píng)論 (共 條)

分享到微博請遵守國家法律
侯马市| 休宁县| 郎溪县| 水富县| 团风县| 抚宁县| 新乡县| 萝北县| 霸州市| 九龙城区| 新营市| 离岛区| 昌邑市| 铁岭市| 梨树县| 民和| 雷州市| 乐平市| 承德市| 宁远县| 宿松县| 伊吾县| 南宁市| 阜宁县| 旬邑县| 古田县| 秦安县| 仙居县| 琼海市| 抚顺县| 三台县| 宁强县| 高淳县| 大足县| 宜兰市| 绥芬河市| 民乐县| 墨竹工卡县| 武山县| 锦州市| 阿拉善右旗|