4070Ti顯卡的深度學(xué)習(xí)性能測試和結(jié)論

環(huán)境:
pytorch環(huán)境:conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge
測試代碼:霹靂吧啦Wz的GitHub中的swin-L和FastRCNN。
4070Ti顯卡深度學(xué)習(xí)模型個(gè)人測試結(jié)果

備注1:主流顯卡的測評分

? time spy跑分參考:https://www.gpu-monkey.com/en/gpu_benchmark-3dmark_time_spy_and_fire_strike-5
備注2:其他顯卡的測試性能(SSD模型,F(xiàn)P32訓(xùn)練)

備注3:另一個(gè)網(wǎng)站上的綜合評分

備注4:各類GPU的FP16和FP8訓(xùn)練和推理性能

感覺備注4和我真實(shí)測試的有較大差異,F(xiàn)P16的訓(xùn)練,4070ti竟然和2080Ti幾乎一樣,不知道為什么作者會得出此結(jié)論。
個(gè)人總結(jié)
timespy 4K跑分非常適合深度學(xué)習(xí)性能評估:作為經(jīng)過本人驗(yàn)證,4070ti的深度學(xué)習(xí)性能(FP32訓(xùn)練和推理)相對1080T和2080T顯卡的差異,幾乎跟time spy 4K跑分差異幾乎一致。至于FP16和FP8,還未測試。
操作系統(tǒng)基本不影響顯卡深度學(xué)習(xí)性能:Ubuntu 22.04和win11系統(tǒng)下,4070ti的訓(xùn)練和推理速度幾乎一模一樣。
12G顯存是硬傷:4070T相對3090速度上并不差,只是顯存12G真的是硬傷,分類網(wǎng)絡(luò)swin-L的batchsize都只能設(shè)為8(圖像224*224)。