初識AI語音
pth后綴名,onnx后綴名,ckpt后綴名,vits,emotional vits,TTS,Diff-svc,sovits,
D_0,G_0,config.json,頭都大了。
基礎知識折磨了我兩天....目前理解下來:
TTS,vits,emotional vits,文字轉(zhuǎn)語音,俗稱說話。pth后綴名
Diff-svc,sovits,語音轉(zhuǎn)語音,俗稱變聲。ckpt后綴名
onnx后綴名的以上兩者皆可。如果理解有誤還請大佬指出!
問了chatGPT:
Diff-svc和TTS有什么區(qū)別?
Diff-svc和TTS都是語音合成技術(shù),但它們之間有一些不同點。
Diff-svc是一種語音轉(zhuǎn)換技術(shù),即將一種說話人的語音轉(zhuǎn)換成另一種說話人的語音。它可以將語音中的說話人特征(如音色、音調(diào)等)轉(zhuǎn)換成另一種說話人的特征,以實現(xiàn)語音風格的轉(zhuǎn)換。Diff-svc技術(shù)可以用于電影、電視、廣播等多媒體領域,也可以用于智能語音助手、語音識別等領域。
TTS(Text-to-Speech)是一種將文本轉(zhuǎn)換成語音的技術(shù),即根據(jù)輸入的文本生成相應的語音。TTS技術(shù)可以用于自然語言交互、智能客服、有聲讀物等多個領域。與Diff-svc不同,TTS技術(shù)并不需要將輸入的文本轉(zhuǎn)換成另一種說話人的語音,而是直接根據(jù)文本生成語音。
因此,Diff-svc和TTS都是語音合成技術(shù),但它們的應用場景和技術(shù)實現(xiàn)有所不同。
onnx和pth兩種文件格式有什么區(qū)別?
ONNX和PTH(PyTorch)都是深度學習模型的文件格式,但它們有一些不同點。
ONNX(Open Neural Network Exchange)是一種開放式的深度學習框架間交互的標準,可以在不同的深度學習框架之間共享和轉(zhuǎn)換模型。ONNX格式的模型具有可移植性和跨平臺性,可以在不同的硬件設備上部署和運行。ONNX文件包含模型結(jié)構(gòu)、權(quán)重參數(shù)和前向推理過程,可以使用各種深度學習框架的API加載和運行。
PTH是PyTorch框架的默認模型文件格式,包含了PyTorch訓練的深度學習模型的權(quán)重參數(shù)和結(jié)構(gòu)。使用.pth文件可以在PyTorch框架中加載和使用訓練好的模型,可以進行推理、Fine-tune等操作。
因此,ONNX是一種跨平臺、跨框架的深度學習模型文件格式,可以在不同的深度學習框架之間共享和轉(zhuǎn)換模型,而.pth是PyTorch框架的默認模型文件格式,只能在PyTorch框架中使用。