騰訊云GPU服務(wù)器安裝 Tesla 驅(qū)動
騰訊云GPU服務(wù)器低至2折
騰訊云GPU服務(wù)器優(yōu)惠入口https://www.bensue.cn/tencent
操作場景
GPU 云服務(wù)器正常工作需提前安裝正確的基礎(chǔ)設(shè)施軟件,對 NVIDIA 系列 GPU 而言,有以下兩個層次的軟件包需要安裝:驅(qū)動 GPU 工作的硬件驅(qū)動程序。上層應(yīng)用程序所需要的庫。若把 NVIDIA GPU 用作通用計算,則需安裝 Tesla Driver + CUDA。本文介紹如何安裝 Tesla Driver,如何安裝 CUDA 請參見 安裝 CUDA 指引。說明為方便用戶,用戶可以在創(chuàng)建 GPU 云服務(wù)器時,在服務(wù)市場里選擇預(yù)裝特定版本驅(qū)動和 CUDA 的鏡像。詳情請參見 使用預(yù)裝 GPU 驅(qū)動的鏡像。
操作步驟
Linux 驅(qū)動安裝
Linux 驅(qū)動安裝采用 Shell 腳本安裝方式,適用于任何 Linux 發(fā)行版,包括 CentOS,Ubuntu 等。NVIDIA Telsa GPU 的 Linux 驅(qū)動在安裝過程中需要編譯 kernel module,系統(tǒng)需提前安裝 gcc 和編譯 Linux Kernel Module 所依賴的包,例如 kernel-devel-$(uname -r)
等。本文提供 CentOS 及 Ubuntu 系統(tǒng)操作步驟,請您按需選擇:CentOSUbuntu1. 執(zhí)行以下命令,檢查當(dāng)前系統(tǒng)中是否已安裝 dkms。rpm -qa | grep -i dkms返回結(jié)果如下圖,則表示已安裝 dkms。

如未安裝 dkms,則執(zhí)行以下命令進(jìn)行安裝。sudo yum install -y dkms2. 登錄 NVIDIA 驅(qū)動下載 或訪問 http://www.nvidia.com/Download/Find.aspx
。3. 根據(jù)實例操作系統(tǒng)及 GPU 規(guī)格,選擇操作系統(tǒng)和安裝包。GPU 規(guī)格信息請參見 實例類型。4. 單擊 SEARCH 搜尋驅(qū)動,選擇要下載的驅(qū)動版本。本文以 V100 為例,如下圖所示:注意操作系統(tǒng)(Operating System)選擇 Linux 64-bit 即表示下載 shell 安裝文件。如果選擇具體的發(fā)行版,則下載的文件是對應(yīng)的包安裝文件。

5. 選擇特定的版本進(jìn)入下載頁面,單擊?DOWNLOAD。如下圖所示:

6. 如有填寫個人信息的頁面可選擇直接跳過,當(dāng)出現(xiàn)以下頁面時,右鍵單擊?AGREE&DOWNLOAD?并選擇菜單中的復(fù)制鏈接地址。如下圖所示:

?7. 參見 使用標(biāo)準(zhǔn)方式登錄 Linux 實例(推薦),登錄 GPU 實例。您也可以根據(jù)實際操作習(xí)慣,選擇其他不同的登錄方式:使用遠(yuǎn)程登錄軟件登錄 Linux 實例使用 SSH 登錄 Linux 實例8. 使用?wget
?命令, 粘貼?步驟6?中已獲取的鏈接地址,下載安裝包。如下圖所示:

或者您可在本地系統(tǒng)下載 NVIDIA 安裝包,再上傳到 GPU 實例的服務(wù)器。9. 執(zhí)行以下命令,對安裝包添加執(zhí)行權(quán)限。 例如,對文件名為?NVIDIA-Linux-x86_64-418.126.02.run
?添加執(zhí)行權(quán)限。chmod +x NVIDIA-Linux-x86_64-418.126.02.run10. 依次執(zhí)行以下命令,檢查當(dāng)前系統(tǒng)中是否已安裝 gcc 和 kernel-devel 包。rpm -qa | grep kernel-develrpm -qa | grep gcc返回結(jié)果如下,則表示已安裝 gcc 和 kernel-devel。

如未安裝,則請執(zhí)行以下命令進(jìn)行安裝。sudo yum install -y gcc kernel-devel注意如升級了 kernel 版本,則需要將 kernel-devel 升級至與 kernel 相同的版本。11. 執(zhí)行以下命令,運行驅(qū)動安裝程序,并按提示進(jìn)行后續(xù)操作。sudo sh NVIDIA-Linux-x86_64-418.126.02.run ?--disable-nouveau12. 安裝完成后,執(zhí)行以下命令進(jìn)行驗證。nvidia-smi如返回信息類似下圖中的 GPU 信息,則說明驅(qū)動安裝成功。

說明以下步驟適用于直通卡型(GPU 卡數(shù) ≥ 1)Ubuntu 系統(tǒng) Tesla 驅(qū)動和 GRID 驅(qū)動安裝,若您使用 GRID 驅(qū)動,請參考文檔申請和配置 GRID license,詳情請參見 安裝 NVIDIA GRID 驅(qū)動。1. 執(zhí)行以下命令,并輸入 root 用戶密碼,切換至 root 用戶。su若您需重置 root 用戶密碼,請參見 Ubuntu 系統(tǒng)如何使用 root 用戶登錄實例?2. 執(zhí)行以下命令,查看當(dāng)前系統(tǒng)中是否已安裝 dkms。dpkg -l | grep -i dkms返回結(jié)果如下圖,則表示已安裝 dkms。

若返回結(jié)果為空,則表明未安裝 dkms,執(zhí)行以下命令進(jìn)行安裝。apt-get install dkms3. 前往 Official Drivers 頁面,按需選擇 GRID 驅(qū)動類型。4. 選擇特定的版本進(jìn)入下載頁面,單擊 DOWNLOAD。如下圖所示:

5. 如有填寫個人信息的頁面可選擇直接跳過,當(dāng)出現(xiàn)以下頁面時,右鍵單擊 AGREE&DOWNLOAD 并選擇菜單中的復(fù)制鏈接地址。如下圖所示:

6. 參考 使用標(biāo)準(zhǔn)方式登錄 Linux 實例(推薦),登錄 GPU 實例。7. 使用 wget 命令,粘貼 步驟5 中復(fù)制的鏈接地址,下載安裝包。如下圖所示:

8. 執(zhí)行以下命令,修改安裝包權(quán)限。請將命令中的 xxx 替換為您實際的驅(qū)動版本號。chmod +x NVIDIA-Linux-x86_64-xxxx.run9. 由于 NVIDIA 動的安裝需要依賴 gcc 和 linux-kernel-headers,請依次執(zhí)行以下命令,檢查當(dāng)前系統(tǒng)中是否已安裝 gcc 和 kernel-devel 包。dpkg -l | grep -i gccdpkg -l | grep -i linux-headers返回結(jié)果如下,則表示已安裝 gcc 和 kernel-devel。

若返回結(jié)果為空,則表明未安裝,執(zhí)行以下命令進(jìn)行安裝。sudo apt-get install gcc linux-kernel-headers10. 執(zhí)行命令安裝驅(qū)動程序,根據(jù)提示進(jìn)行后續(xù)操作。請將命令中的 xxx 替換為您實際的驅(qū)動版本號。sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s11. 安裝完成后,執(zhí)行以下命令進(jìn)行驗證。nvidia-smi如返回信息類似下圖中的 GPU 信息,則說明驅(qū)動安裝成功。

Windows 驅(qū)動安裝
1. 參見 使用 RDP 文件登錄 Windows 實例(推薦),登錄 GPU 實例。2. 訪問 NVIDIA 驅(qū)動下載 官網(wǎng)。3. 根據(jù)實例操作系統(tǒng)及 GPU 規(guī)格,選擇操作系統(tǒng)和安裝包。GPU 規(guī)格信息請參見 實例類型。 本文以 V100 為例,如下圖所示:

4. 打開下載驅(qū)動程序所在的文件夾,雙擊安裝文件開始安裝,按照界面上的提示安裝驅(qū)動程序并根據(jù)需要重啟實例。 安裝完成后,如需驗證 GPU 是否正常工作,請查看設(shè)備管理器。
安裝失敗原因
Linux 系統(tǒng)驅(qū)動安裝失敗表現(xiàn)為 nvidia-smi 無法工作,通常原因如下:1. 系統(tǒng)缺乏編譯 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,導(dǎo)致無法編譯,最終安裝失敗。2. 系統(tǒng)里面存在多個版本的 kernel,由于 DKMS 的不正確配置,導(dǎo)致驅(qū)動編譯為非當(dāng)前版本 kernel 的 kernel module,導(dǎo)致 kernel module 安裝失敗。3. 安裝驅(qū)動后,升級了 kernel 版本導(dǎo)致原來的安裝失效。