語音之家WeNet語音識(shí)別實(shí)戰(zhàn)(第2期)
首包響應(yīng)時(shí)間
在流式合成中,分段合成的音頻會(huì)傳輸給客戶端或者播放系統(tǒng),在合成首段音頻時(shí),也會(huì)耗費(fèi)時(shí)間,這個(gè)耗時(shí)稱為“首包響應(yīng)時(shí)間”。為什么會(huì)統(tǒng)計(jì)這個(gè)時(shí)間呢,因?yàn)樵谡Z音交互中,根據(jù)項(xiàng)目經(jīng)驗(yàn)以及人的容忍程度,當(dāng)用戶說完話時(shí),在1200ms之內(nèi),機(jī)器人就要開始播報(bào)回復(fù),這樣就不會(huì)感覺有空白時(shí)間或者停頓點(diǎn)
標(biāo)簽: