最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

免費開源 Constme-Whisper離線語音識別 v1.12識別率高 速度快 附模型

2023-07-24 20:50 作者:愛分享的劍二十七  | 我要投稿

Constme-Whisper是OpenAI的Whisper自動語音識別ASR模型的衍生項目。

Constme-Whisper可以在Windows上使用,支持高性能GPGPU處理,可以利用GPU加速處理。

本體是個啟動器,需要結(jié)合一個語言識別模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相對的速度也更慢。

  • 基于DirectCompute的與供應(yīng)商無關(guān)的GPGPU;該技術(shù)的另一個名稱是“Direct3D 11 中的計算著色器”

  • 純C++實現(xiàn),除了基本的操作系統(tǒng)組件外,沒有運行時依賴關(guān)系

  • 比OpenAI的實現(xiàn)快得多。

  • 混合 F16 / F32 精度:Windows 需要自 D3D 版本 10.0 起支持緩沖區(qū)R16_FLOAT

  • 內(nèi)置性能探查器,用于測量單個計算著色器的執(zhí)行時間

  • 內(nèi)存使用率低

  • 用于音頻處理的媒體基礎(chǔ),支持大多數(shù)音頻和視頻格式(Ogg Vorbis除外), 以及大多數(shù)在Windows上運行的音頻捕獲設(shè)備(除了一些專業(yè)設(shè)備,它們只實現(xiàn)ASIO API)。

  • 用于音頻捕獲的語音活動檢測。

  • 易于使用的 COM 樣式 API,nuget 上提供的慣用 C# 包裝器

  • 提供預(yù)構(gòu)建的二進制文件

軟件截圖





下面是項目的一些介紹 可以看看

High-performance GPGPU(General-Purpose Graphics Processing Unit)inference of OpenAI's Whisper automatic speech recognition (ASR) model 是指利用高性能圖形處理單元進行OpenAI的Whisper自動語音識別(ASR)模型的推斷(inference)過程。Whisper ASR模型是一種先進的語音識別技術(shù),通過深度學(xué)習(xí)和人工智能的方法,能夠準(zhǔn)確地將語音轉(zhuǎn)換為文本。而利用GPGPU進行推斷,是為了加速這一模型的執(zhí)行過程,提高語音識別的實時性和效率。

現(xiàn)代計算機的圖形處理單元(GPU)已經(jīng)不再是僅僅用于圖形渲染的設(shè)備,其高度并行的計算能力使其適合處理許多其他類型的任務(wù),包括機器學(xué)習(xí)和深度學(xué)習(xí)。通過充分發(fā)揮GPU的并行計算能力,可以加速Whisper ASR模型的推斷過程,使其能夠更快地對輸入的語音進行分析和轉(zhuǎn)錄。

利用GPGPU進行Whisper ASR模型的推斷有幾個關(guān)鍵的優(yōu)勢。首先,GPU可以同時執(zhí)行多個任務(wù),因此可以并行處理多個音頻流并在較短的時間內(nèi)完成推斷。這對于需要實時性的語音識別應(yīng)用非常重要,例如語音助手、電話交互系統(tǒng)等。其次,GPU具有較高的計算能力和內(nèi)存帶寬,能夠處理大量的語音數(shù)據(jù),并在短時間內(nèi)生成實時的識別結(jié)果。最后,利用GPGPU進行推斷可以減輕主機CPU的負擔(dān),釋放出更多的計算資源用于其他任務(wù),提高整體系統(tǒng)的效率和性能。

除了提供高性能的語音識別推斷,使用GPGPU還可以為Whisper ASR模型帶來更廣泛的應(yīng)用和擴展性。目前,語音識別技術(shù)正在廣泛應(yīng)用于語音轉(zhuǎn)寫、語音指令、實時翻譯等領(lǐng)域。通過利用GPGPU進行推斷,Whisper ASR模型可以更好地滿足這些應(yīng)用的需要,提供更精確、更快速的識別服務(wù)。

總的來說,通過利用高性能GPGPU進行OpenAI的Whisper自動語音識別模型的推斷,可以提高語音識別的實時性和效率。這一技術(shù)的應(yīng)用將極大地推動語音識別在各個領(lǐng)域的發(fā)展,并為用戶提供更優(yōu)質(zhì)、更便捷的語音交互體驗。隨著硬件和軟件的不斷創(chuàng)新和進步,相信GPGPU推斷技術(shù)將在語音識別領(lǐng)域發(fā)揮越來越重要的作用。

下面是教程

目前這個工具只有英文版,沒有中文。我寫一個簡單的教程吧
先下載解壓好后,打開軟件會提示讓你選擇模型,模型我已經(jīng)準(zhǔn)備好,就放在軟件目錄下


為了方便我選擇了那個體積最大的模型。。。其他默認,等待幾秒。進入下一個界面 如下


transcribe file 就是你需要生成文字的視頻。我隨便找了一段素材。

output format 就是輸出文件 讓你選擇


格式看你自己需要了。這里注意的語言那里要選chinese。

后面的翻譯不要點,否則會自動翻譯成英文了

一切就緒后點擊右下方的transcribe 生成的速度嘛 看你的電腦硬件配置了,都是離線操作。

我大致測試了幾個視頻生成文字后識別率還是很高的

給你們截圖一下我生成的文字


下面這個圖片是手賤點了翻譯后生成的。。。

英文翻譯的地道不地道我也不知道,只能說能看,誰叫我英文早還給老師了


這個軟件還有個麥克風(fēng)輸入生成文字,這個我沒試,有需要的小伙伴 你們可以試試?

免費開源 Constme-Whisper離線語音識別 v1.12識別率高 速度快 附模型的評論 (共 條)

分享到微博請遵守國家法律
略阳县| 鄂伦春自治旗| 怀宁县| 南和县| 古交市| 阿图什市| 郑州市| 方山县| 繁昌县| 刚察县| 平度市| 鄢陵县| 房山区| 略阳县| 铅山县| 堆龙德庆县| 呈贡县| 若尔盖县| 崇仁县| 黎川县| 上栗县| 建平县| 南康市| 巨野县| 天柱县| 长汀县| 女性| 沐川县| 黑河市| 衡水市| 大理市| 温宿县| 荣昌县| 田东县| 阜平县| 尉犁县| 昌江| 盐亭县| 汉川市| 子长县| 彰化市|