免費開源 Constme-Whisper離線語音識別 v1.12識別率高 速度快 附模型
Constme-Whisper是OpenAI的Whisper自動語音識別ASR模型的衍生項目。
Constme-Whisper可以在Windows上使用,支持高性能GPGPU處理,可以利用GPU加速處理。
本體是個啟動器,需要結(jié)合一個語言識別模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相對的速度也更慢。
基于DirectCompute的與供應(yīng)商無關(guān)的GPGPU;該技術(shù)的另一個名稱是“Direct3D 11 中的計算著色器”
純C++實現(xiàn),除了基本的操作系統(tǒng)組件外,沒有運行時依賴關(guān)系
比OpenAI的實現(xiàn)快得多。
混合 F16 / F32 精度:Windows 需要自 D3D 版本 10.0 起支持緩沖區(qū)R16_FLOAT
內(nèi)置性能探查器,用于測量單個計算著色器的執(zhí)行時間
內(nèi)存使用率低
用于音頻處理的媒體基礎(chǔ),支持大多數(shù)音頻和視頻格式(Ogg Vorbis除外), 以及大多數(shù)在Windows上運行的音頻捕獲設(shè)備(除了一些專業(yè)設(shè)備,它們只實現(xiàn)ASIO API)。
用于音頻捕獲的語音活動檢測。
易于使用的 COM 樣式 API,nuget 上提供的慣用 C# 包裝器
提供預(yù)構(gòu)建的二進制文件
軟件截圖
下面是項目的一些介紹 可以看看
High-performance GPGPU(General-Purpose Graphics Processing Unit)inference of OpenAI's Whisper automatic speech recognition (ASR) model 是指利用高性能圖形處理單元進行OpenAI的Whisper自動語音識別(ASR)模型的推斷(inference)過程。Whisper ASR模型是一種先進的語音識別技術(shù),通過深度學(xué)習(xí)和人工智能的方法,能夠準(zhǔn)確地將語音轉(zhuǎn)換為文本。而利用GPGPU進行推斷,是為了加速這一模型的執(zhí)行過程,提高語音識別的實時性和效率。
現(xiàn)代計算機的圖形處理單元(GPU)已經(jīng)不再是僅僅用于圖形渲染的設(shè)備,其高度并行的計算能力使其適合處理許多其他類型的任務(wù),包括機器學(xué)習(xí)和深度學(xué)習(xí)。通過充分發(fā)揮GPU的并行計算能力,可以加速Whisper ASR模型的推斷過程,使其能夠更快地對輸入的語音進行分析和轉(zhuǎn)錄。
利用GPGPU進行Whisper ASR模型的推斷有幾個關(guān)鍵的優(yōu)勢。首先,GPU可以同時執(zhí)行多個任務(wù),因此可以并行處理多個音頻流并在較短的時間內(nèi)完成推斷。這對于需要實時性的語音識別應(yīng)用非常重要,例如語音助手、電話交互系統(tǒng)等。其次,GPU具有較高的計算能力和內(nèi)存帶寬,能夠處理大量的語音數(shù)據(jù),并在短時間內(nèi)生成實時的識別結(jié)果。最后,利用GPGPU進行推斷可以減輕主機CPU的負擔(dān),釋放出更多的計算資源用于其他任務(wù),提高整體系統(tǒng)的效率和性能。
除了提供高性能的語音識別推斷,使用GPGPU還可以為Whisper ASR模型帶來更廣泛的應(yīng)用和擴展性。目前,語音識別技術(shù)正在廣泛應(yīng)用于語音轉(zhuǎn)寫、語音指令、實時翻譯等領(lǐng)域。通過利用GPGPU進行推斷,Whisper ASR模型可以更好地滿足這些應(yīng)用的需要,提供更精確、更快速的識別服務(wù)。
總的來說,通過利用高性能GPGPU進行OpenAI的Whisper自動語音識別模型的推斷,可以提高語音識別的實時性和效率。這一技術(shù)的應(yīng)用將極大地推動語音識別在各個領(lǐng)域的發(fā)展,并為用戶提供更優(yōu)質(zhì)、更便捷的語音交互體驗。隨著硬件和軟件的不斷創(chuàng)新和進步,相信GPGPU推斷技術(shù)將在語音識別領(lǐng)域發(fā)揮越來越重要的作用。
下面是教程
目前這個工具只有英文版,沒有中文。我寫一個簡單的教程吧
先下載解壓好后,打開軟件會提示讓你選擇模型,模型我已經(jīng)準(zhǔn)備好,就放在軟件目錄下
為了方便我選擇了那個體積最大的模型。。。其他默認,等待幾秒。進入下一個界面 如下
transcribe file 就是你需要生成文字的視頻。我隨便找了一段素材。
output format 就是輸出文件 讓你選擇
格式看你自己需要了。這里注意的語言那里要選chinese。
后面的翻譯不要點,否則會自動翻譯成英文了
一切就緒后點擊右下方的transcribe 生成的速度嘛 看你的電腦硬件配置了,都是離線操作。
我大致測試了幾個視頻生成文字后識別率還是很高的
給你們截圖一下我生成的文字
下面這個圖片是手賤點了翻譯后生成的。。。
英文翻譯的地道不地道我也不知道,只能說能看,誰叫我英文早還給老師了
這個軟件還有個麥克風(fēng)輸入生成文字,這個我沒試,有需要的小伙伴 你們可以試試?