散文網 » 生活 »日常 » 民用AI，本地部署！技嘉4070風魔實測AI生產力

民用AI，本地部署！技嘉4070風魔實測AI生產力

2023-06-07 15:27 作者:波導終結者 0人讀過 | 我要投稿

大家好，我是波導終結者。

首先想跟大家聊聊最近發(fā)展甚快的AI。想必大部分人都不曾想到，AI的發(fā)展會如此之快，以至于真的可能影響我們的生活方式。比如最近官媒通報過，AI炸片泛濫，要求大家警惕?，F(xiàn)在的技術已經可以做到實時換臉、換聲，也就是說陌生人通過AI技術，可以換臉、換聲成你認識的人。以前說的要打電話確認已經不管用，甚至視頻通話都不管用了。早幾年，AI換臉就已經在挑戰(zhàn)著司法和倫理的底限，現(xiàn)在只會更糟，因為萬一有什么糾紛，照片甚至是視頻都不再可信。

鑒于此情況，NVIDIA也是再次大火，市值一度突破萬億美元?，F(xiàn)在已經有不少的AI項目已經頗為成熟，甚至可以本地斷網只用一張民用顯卡來運行。今天就跟大家分享一下最近新入手的顯卡，以及一些可以本地利用顯卡加速運行的AI項目。事先聲明，本文內容側重于顯卡對生產力的加速，不涉及任何不良內容、不良用途的產生和教學。

趁著這次618入手了技嘉4070風魔，主要用來做生產力。挑選理由也比較簡單：1.它有12G顯存，上代的3080Ti也才12G，至于傳說中的4060Ti 16G版，后面再說；2.標準版普遍使用8pin電源接口，更適合部分老機升級；3.功耗比、性價比很高。

先來看看賬面數(shù)據(jù)。4070使用了最新的Ada Lovelace架構，采用AD104-250核心，有5888個CUDA核心，并且L2高速緩存從個前代的4MB提升至36MB，擁有184個TMUS、60個ROPS以及46個光追單元。同時RTX 4070的基礎頻率達到了1920MHz，Boost頻率可達2475MHz。在顯存方面，RTX 4070擁有12GB 192bit位寬的GDDR6X顯存，顯存速率達到了21Gbps。

規(guī)格上，4070最大的優(yōu)勢是架構和功耗，光追、DLSS3等方面都有優(yōu)化。游戲性能已經有不少媒體做過實測，這里簡單的跑一下3DMARK，TIME SPY 17955分，TIME SPY EXTREME 8360分，F(xiàn)IRE STRIKE EXTREME 20567分，F(xiàn)IRE STRIKE ULTRA 10233分。由于游戲的部分很多人都測過，我打算直奔生產力和AI軟件了，畢竟NVIDIA市值暴漲就是因為AI使用顯卡加速的普及。而一般理論上來說，干活用的應該上最好的，但現(xiàn)實情況就是，大半的個人甚至公司還是希望捏緊一下預算，挑性價比高的。

正好手上有一塊3080Ti，紙面性能肯定是要高于4070的，但考慮到差了好幾倍的原價以及功耗，若能達到差不多的生產力效果，4070反而可能是上選。這次的測試平臺是：10700K+Z490+3080Ti，WIN10最新版，531.41 Game Ready（懶得重裝）；以及12700K+Z690+4070，WIN11最新版，531.41 Studio。

AI語音轉文字

關于語音轉文字的應用可以追溯到很久很久以前，對于大部分人來說，手機語音轉文字是最臉熟的。在干活領域，真正進入大眾視野以及實用，還是和短視頻分不開，簡單來說就是沒字幕不看。然而，打過字幕的人都知道，麻煩，耗時。

相關的工具我從很早也就開始用了，比如X易見外，以及民間調用X度API的工具等。但是當大廠進軍之后，就沒這些工具什么事了。目前就VLOG來說，如果你不擔心聯(lián)網導致的隱密性問題，剪映用起來還是很不錯的。

第二個是PR，2022之后的版本也支持語音轉文字了，但個人用下來感覺不是很好用。首先它是需要本地模型的，安裝包要大上10來G（可精簡至剩中英文）；其次，斷句不舒服，還要比較多的二次操作；第三，離最后生成內嵌或者外掛字幕都還需要額外步驟。

而且目前它的速度還是偏慢，根據(jù)資源占用情況可以看到，CPU沒有吃滿，顯卡基本沒用到。用我之前自己錄的游戲視頻實測，1小時的視頻需要將近20分鐘，速度僅為3倍。

以上2個工具更適合VLOG視頻編輯時集成使用，那么如果只是單純的想要把視頻轉換成文字，然后輸出文本或者SRT字幕，有沒有更佳的方案呢？當然是有的。經過我自己一番嘗試，由OpenAI開源的Whisper是很不錯的方案。首先它是完全離線，依靠本地模型，并且第三方封裝的Whisper支持GPU加速，效果也非常不錯。

實際操作下來，將近55分鐘的視頻在3080Ti上僅用時2分26秒轉換完成，而4070用時2分39秒，兩者都達到了20倍以上的速度。這么一小點的差距，在性價比和能耗比面前不值一提。

效果方面，一般推薦使用medium模型，但不知為何，出來的文字是繁體中文，使用工具轉成簡體即可。如果覺得還不滿意，可以試試使用large模型，耗時約為medium的2倍，實測速度在12倍速左右。中文medium模型1.5G，large在3G左右，對于生產力來說不痛不癢。而且實際操作的時候，我發(fā)現(xiàn)中文里夾雜的英文其實也可以識別出來，比如圖里的“LB+B”，是我在實況解說時說到的手柄操作，其他的常用單詞，比如F開頭或者S開頭的基本也可以識別出來。

實際占用方面，雖然官方推薦16GB顯存，但我用的時候分別只吃掉了3.7G和2.5G顯存，12G應該是夠的，兩張顯卡的3D占用都在90%左右浮動。

令我覺得有點驚喜的是4070的溫度，我看任務管理器，在50和60多度之間來回跳，一開始以為是顯示錯誤。用手摸了一下，背板竟然也不是很燙，可以把手指一直放在上面。仔細一想，又看了一下風扇，恍然大悟?，F(xiàn)在的顯卡都有風扇智能啟停，默認好像是50度以下不轉，而4070的功耗和發(fā)熱控制得更出色，剛好卡在50度左右，不轉的時候溫度迅速上升，然后風扇轉起來又降到了50度以下，又不轉了。哦，還有一點忘了提，這卡只需單8pin供電。

另外，我還試了一下純CPU識別，不知道是不是這個工具封裝的時候只做了GPU的部分。如果強制只使用CPU的話，速度極慢，出不了結果，我甚至弄了個幾分鐘的小視頻進去，也一直卡著進度條，而CPU占用率一直是滿的。最后我又去弄了原始的python程序試了一下，10分鐘的視頻花了我差不多1小時，人直接傻了。簡單換算的話，顯卡的速度為CPU的120倍左右。

總結一下，如果你只是做VLOG，幾分鐘視頻打打字幕，不介意聯(lián)網，那么直接扔剪映里面就行。而如果有生產力需求，有比較大數(shù)量或者時長的資源需要處理，那么Whisper是目前的首選。它不僅可以通過腳本單獨運行，或者使用封裝好的EXE，也可以直接集成源代碼實現(xiàn)更多復雜的功能。顯卡加速效果明顯，在4070上可以以1:20以上的速度運行。

AI繪畫

對于更多老……朋友來說，可能最蠢蠢欲動的是AI繪畫了。鑒于用途不同，本文不使用額外的模型，不生成真人照片，只討論顯卡加速效果。這里偷懶，直接使用了基于stable diffusion的第三方整合包，可以自由切換CPU或者顯卡。

這東西的參數(shù)非常多的，本文并非AI繪畫效果教程，所以不多贅述。模型貌似是以塊為單獨生成的，所以分辨率并不能任意設置。

實測的時候，CPU工作時資源吃到70%-80%左右，并未跑滿。顯卡只有3D吃到25%左右，顯存還剩一半有余，甚至連風扇都懶得轉。AI繪畫是多次迭代的，出現(xiàn)這種情況并不意外。

我讓引擎生成一張顯卡，10700K耗時5分57秒，3080Ti耗時6秒72，12700K耗時5分24秒，4070耗時6秒29。請注意，本次主要探討的是顯卡在同等設置和質量下的速度優(yōu)勢，所以并未使用額外的模型，也不生成真人圖片。

總的來看，在AI繪畫時，4070/3080Ti的速度都在CPU的50倍以上，如果是生產力用途的話，往往需要生成非常大量的圖片從中挑選，這時候提升還是相當可觀的。不過，在嘗試生成1920級別分辨率的時候，兩張12GB顯存的顯卡都爆了顯存，雖然可以通過--lowvram參數(shù)緩解，但是速度又慢了。所以對這方面生產力要求高的用戶，還得挑選更大顯存的型號，比如24GB顯存的4090。

AI人聲分離/消音伴奏

如果是玩電腦比較早的朋友，又有稍微玩一下音頻處理之類的，可能會對“消音伴奏”有點印象。以前，一首歌曲，如果沒有官方的伴奏，而一般人又沒有足夠的樂理能力，是無法弄出質量好點的伴奏的。普通用戶只能用消音的方式，說白了就是把歌曲的左右聲道反相，那么一般來說，人聲左右聲道均勻，反相之后抵消，留下大部分伴奏。然而，這種方式的效果全看臉，有的歌曲能達到90%的效果，也有的人聲基本還在，主要伴奏卻被消得參差不齊了。如果你去KTV有唱過所謂的盜版歌曲，感覺伴奏很怪，那有很大概率就是老式的消音伴奏弄的。

然而，隨著近幾年AI的流行，使用AI配合模型對音頻進行人聲與伴奏的高質量分離成為了可能。UVR5這款軟件現(xiàn)在的效果已經非常不錯，并且不管有沒有顯卡，都可以使用。這里先使用CPU進行處理，耗時1分29秒。

如果僅是對一首3-5分鐘的歌曲進行處理，那么CPU的速度也還可以忍受，當然有顯卡的話快4-5倍那是更好的。而嚴格來說，UVR5不僅僅是對歌曲進行處理，而是分離人聲。舉個例子，比如現(xiàn)在有部動畫，你想給它做配音，但是找得到背景音源嗎？幾乎找不到。不用說個人了，以前我就看過不少因為沒有靠譜音源而效果極其糟糕的國配動畫，比如七龍珠Z和灌籃高手的其中某些集數(shù)，相信看過的朋友都有印象。

關于效果，我只使用了默認的UVR-MDX-NET 1模型，結論就是兩個字：牛逼！伴奏干干凈凈，一點人聲都沒有。而人聲部分一樣干干凈凈，連混音和和聲都全在。如果硬要說缺點的話，那就是伴奏沒和聲了，這種基于模型的分離人聲與樂器很容易，但分離主唱與和聲卻很難。如果你有比較大批量或者時長的音頻需要分離人聲，搞塊顯卡能把速度快5倍也是很舒服的事情。

AI歌手/換臉

因為涉及到版權和炸片風險，這里只粗淺聊聊。目前AI歌手的做法就是先用剛才提到的UVR5之類的把人聲分離出來，作為模型訓練，再用模型去唱歌，擬真度已經可以達到95%，除了“沒感情”之外，真的是隨便暴打初音洛天依。并且整合在一起的話，就可以實時換聲。而換臉的前身，比如Facerig之類的以前也流行過，前幾年也已經有非實時換臉技術出現(xiàn)，也經常被用到動作片上，你看到的“XX明星流出”基本上都是換臉的。但最近技術繼續(xù)發(fā)展，已經可以實現(xiàn)實時換臉甚至“換人”，也即連全身肢體動作一起換。

我只能說，我很擔心，但無能為力。這技術被濫用的后果非常嚴重，而目前全球行業(yè)內都缺乏有效的技術和法律手段去應對。我不擔心顯卡漲價，我很擔心炸片泛濫，偽造的圖片和視頻泛濫。

AI視頻放大

AI視頻放大本質上和AI圖片放大是同一回事，所以放到一起說。那些AI舊照片修復啥的同理。以前，在DLSS出現(xiàn)之前，有人問我說視頻能放大嗎，馬賽克能去除嗎，我都很肯定的說：不能，因為缺失的細節(jié)是什么，誰也不知道。

現(xiàn)在，這個說法仍然沒有問題，但是，AI可以把細節(jié)補齊到，讓人看起來“覺得就是原片”。也即AI放大補齊的當然不是原始細節(jié)，但是合情合理，讓人類看起來覺得沒有差別。

這方面目前最流行的軟件是Topaz Video AI，最新版本3.0.5，支持各類顯卡加速。

這里我用自己錄的塞爾達1080P視頻來試，放大到3840x2160，默認模型和效果，不做其他處理。可以看到，純CPU干活時，每秒只有0.2幀，這個速度非常簡直無語。而且可以看到，大核沒干滿，小核沒在干。

使用4070干活時，速度“飆升”了20多倍來到3幀左右，在2.5-3.3范圍內浮動，真是可喜可賀。軟件也提供“All GPUs”的選項，但想也知道CPU核顯獨顯同時干到滿幾乎不可能，實測與獨顯加速并無區(qū)別。鑒于速度太慢，我覺得AI視頻放大目前并不具有民用意義上的泛用性，更多的是用來偶爾給什么老舊MV或者你懂的視頻翻個新，或者商業(yè)上砸一堆機器來翻新個什么4K電視劇之類的。

AV1硬編碼

之前我夸過開源軟件的生命力與更新速度，這不，F(xiàn)Fmpeg與OBS已經第一時間跟進了AV1的顯卡編碼加速。目前40系的N卡，INTEL的Arc獨顯和最新的AMD 7000系均已搭載支持AV1硬編碼（注意不是解碼）。根據(jù)眾多測試，目前N卡的Ada Lovelace架構搭載的第八代NVENC效果最好。

我用最新版OBS試了一下，首先H265和AV1編碼在國內無法開啟，只有某404直播站支持。這里我用本地錄像做測試，只需要把輸出模式設為高級，錄像里選擇自定義輸出，編碼器找到AV1_nvenc即可。

測試時接的是2560x1440顯示器，OBS的分辨率也基于此，編碼占用顯卡Video Encode約30%，實時編碼4K肯定也是綽綽有余。此時CPU占用僅2%，約等于放假。錄完之后播放視頻驗證，無任何問題。

至于非直播的AV1編碼，也即視頻壓制，首先我使用最新版本的FFmpeg進行CPU軟壓，速度不到0.1倍，可以認為基本不可用。其實諸多編碼器初期不完善時都是這樣，包括H264早期用CPU軟壓也是這么慢，當時不少的壓片大佬也經歷過0.1倍速壓片的日子，向壓片前輩們致敬。

使用AV1_nvenc壓制時，可喜可賀，速度直接上了9倍，并且從任務管理器中可以看到，3D和Video Encode基本都吃滿了。生產力的時候，吃越滿當然是越高興的了。

那么，目前AV1硬編碼已經完全可用，但目前只有命令行最靠譜，只待各個GUI跟進。當然，在網上我也看到一些營銷號亂吹，說什么市面上的GUI有多少多少都已經支持AV1硬編碼，還特地拿我常用的ShanaEncoder舉例。那么我要打臉了：ShanaEncoder最新版本5.3.1.1是去年2月發(fā)布的，根本不可能支持，試都不用試（當然我試過）。

其他AI項目

在新技術的探索上，NVIDIA確實一直都處于領先的地位，包括之前3D游戲里的抗鋸齒、DSR等方案，以及G-Sync、DLSS、Reflex等。這其中也有一些比較輕度的AI應用，這里也跟大家盤點一下。最近30和40系的顯卡是支持了VSR視頻增強技術，說白了就是插值分辨率，目前Chrome和Edge瀏覽器，以及VLC本地播放支持。我實測觀感確實有所提升，但是并不大，優(yōu)于單純的銳化，劣于DLSS和Topaz Video AI（廢話），并且對顯卡的占用也不小，個人覺得沒啥用，不推薦開。