散文網(wǎng) » 生活 »日常 » 騰訊云GPU服務(wù)器安裝 Tesla 驅(qū)動

騰訊云GPU服務(wù)器安裝 Tesla 驅(qū)動

2023-03-17 11:07 作者:Muyu君 0人讀過 | 我要投稿

騰訊云GPU服務(wù)器低至2折

騰訊云GPU服務(wù)器優(yōu)惠入口https://www.bensue.cn/tencent

操作場景

GPU 云服務(wù)器正常工作需提前安裝正確的基礎(chǔ)設(shè)施軟件，對 NVIDIA 系列 GPU 而言，有以下兩個層次的軟件包需要安裝：驅(qū)動 GPU 工作的硬件驅(qū)動程序。上層應(yīng)用程序所需要的庫。若把 NVIDIA GPU 用作通用計算，則需安裝 Tesla Driver + CUDA。本文介紹如何安裝 Tesla Driver，如何安裝 CUDA 請參見安裝 CUDA 指引。說明為方便用戶，用戶可以在創(chuàng)建 GPU 云服務(wù)器時，在服務(wù)市場里選擇預(yù)裝特定版本驅(qū)動和 CUDA 的鏡像。詳情請參見使用預(yù)裝 GPU 驅(qū)動的鏡像。

操作步驟

Linux 驅(qū)動安裝

Linux 驅(qū)動安裝采用 Shell 腳本安裝方式，適用于任何 Linux 發(fā)行版，包括 CentOS，Ubuntu 等。NVIDIA Telsa GPU 的 Linux 驅(qū)動在安裝過程中需要編譯 kernel module，系統(tǒng)需提前安裝 gcc 和編譯 Linux Kernel Module 所依賴的包，例如 kernel-devel-$(uname -r) 等。本文提供 CentOS 及 Ubuntu 系統(tǒng)操作步驟，請您按需選擇：CentOSUbuntu1. 執(zhí)行以下命令，檢查當(dāng)前系統(tǒng)中是否已安裝 dkms。rpm -qa | grep -i dkms返回結(jié)果如下圖，則表示已安裝 dkms。

如未安裝 dkms，則執(zhí)行以下命令進(jìn)行安裝。sudo yum install -y dkms2. 登錄 NVIDIA 驅(qū)動下載或訪問 http://www.nvidia.com/Download/Find.aspx。3. 根據(jù)實例操作系統(tǒng)及 GPU 規(guī)格，選擇操作系統(tǒng)和安裝包。GPU 規(guī)格信息請參見實例類型。4. 單擊 SEARCH 搜尋驅(qū)動，選擇要下載的驅(qū)動版本。本文以 V100 為例，如下圖所示：注意操作系統(tǒng)（Operating System）選擇 Linux 64-bit 即表示下載 shell 安裝文件。如果選擇具體的發(fā)行版，則下載的文件是對應(yīng)的包安裝文件。

5. 選擇特定的版本進(jìn)入下載頁面，單擊?DOWNLOAD。如下圖所示：

6. 如有填寫個人信息的頁面可選擇直接跳過，當(dāng)出現(xiàn)以下頁面時，右鍵單擊?AGREE&DOWNLOAD?并選擇菜單中的復(fù)制鏈接地址。如下圖所示：

?7. 參見使用標(biāo)準(zhǔn)方式登錄 Linux 實例（推薦），登錄 GPU 實例。您也可以根據(jù)實際操作習(xí)慣，選擇其他不同的登錄方式：使用遠(yuǎn)程登錄軟件登錄 Linux 實例使用 SSH 登錄 Linux 實例8. 使用?wget?命令，粘貼?步驟6?中已獲取的鏈接地址，下載安裝包。如下圖所示：

或者您可在本地系統(tǒng)下載 NVIDIA 安裝包，再上傳到 GPU 實例的服務(wù)器。9. 執(zhí)行以下命令，對安裝包添加執(zhí)行權(quán)限。例如，對文件名為?NVIDIA-Linux-x86_64-418.126.02.run?添加執(zhí)行權(quán)限。chmod +x NVIDIA-Linux-x86_64-418.126.02.run10. 依次執(zhí)行以下命令，檢查當(dāng)前系統(tǒng)中是否已安裝 gcc 和 kernel-devel 包。rpm -qa | grep kernel-develrpm -qa | grep gcc返回結(jié)果如下，則表示已安裝 gcc 和 kernel-devel。

如未安裝，則請執(zhí)行以下命令進(jìn)行安裝。sudo yum install -y gcc kernel-devel注意如升級了 kernel 版本，則需要將 kernel-devel 升級至與 kernel 相同的版本。11. 執(zhí)行以下命令，運行驅(qū)動安裝程序，并按提示進(jìn)行后續(xù)操作。sudo sh NVIDIA-Linux-x86_64-418.126.02.run ?--disable-nouveau12. 安裝完成后，執(zhí)行以下命令進(jìn)行驗證。nvidia-smi如返回信息類似下圖中的 GPU 信息，則說明驅(qū)動安裝成功。

說明以下步驟適用于直通卡型（GPU 卡數(shù) ≥ 1）Ubuntu 系統(tǒng) Tesla 驅(qū)動和 GRID 驅(qū)動安裝，若您使用 GRID 驅(qū)動，請參考文檔申請和配置 GRID license，詳情請參見安裝 NVIDIA GRID 驅(qū)動。1. 執(zhí)行以下命令，并輸入 root 用戶密碼，切換至 root 用戶。su若您需重置 root 用戶密碼，請參見 Ubuntu 系統(tǒng)如何使用 root 用戶登錄實例？2. 執(zhí)行以下命令，查看當(dāng)前系統(tǒng)中是否已安裝 dkms。dpkg -l | grep -i dkms返回結(jié)果如下圖，則表示已安裝 dkms。

若返回結(jié)果為空，則表明未安裝 dkms，執(zhí)行以下命令進(jìn)行安裝。apt-get install dkms3. 前往 Official Drivers 頁面，按需選擇 GRID 驅(qū)動類型。4. 選擇特定的版本進(jìn)入下載頁面，單擊 DOWNLOAD。如下圖所示：

5. 如有填寫個人信息的頁面可選擇直接跳過，當(dāng)出現(xiàn)以下頁面時，右鍵單擊 AGREE&DOWNLOAD 并選擇菜單中的復(fù)制鏈接地址。如下圖所示：

6. 參考使用標(biāo)準(zhǔn)方式登錄 Linux 實例（推薦），登錄 GPU 實例。7. 使用 wget 命令，粘貼步驟5 中復(fù)制的鏈接地址，下載安裝包。如下圖所示：

8. 執(zhí)行以下命令，修改安裝包權(quán)限。請將命令中的 xxx 替換為您實際的驅(qū)動版本號。chmod +x NVIDIA-Linux-x86_64-xxxx.run9. 由于 NVIDIA 動的安裝需要依賴 gcc 和 linux-kernel-headers，請依次執(zhí)行以下命令，檢查當(dāng)前系統(tǒng)中是否已安裝 gcc 和 kernel-devel 包。dpkg -l | grep -i gccdpkg -l | grep -i linux-headers返回結(jié)果如下，則表示已安裝 gcc 和 kernel-devel。

若返回結(jié)果為空，則表明未安裝，執(zhí)行以下命令進(jìn)行安裝。sudo apt-get install gcc linux-kernel-headers10. 執(zhí)行命令安裝驅(qū)動程序，根據(jù)提示進(jìn)行后續(xù)操作。請將命令中的 xxx 替換為您實際的驅(qū)動版本號。sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s11. 安裝完成后，執(zhí)行以下命令進(jìn)行驗證。nvidia-smi如返回信息類似下圖中的 GPU 信息，則說明驅(qū)動安裝成功。

Windows 驅(qū)動安裝

1. 參見使用 RDP 文件登錄 Windows 實例（推薦），登錄 GPU 實例。2. 訪問 NVIDIA 驅(qū)動下載官網(wǎng)。3. 根據(jù)實例操作系統(tǒng)及 GPU 規(guī)格，選擇操作系統(tǒng)和安裝包。GPU 規(guī)格信息請參見實例類型。本文以 V100 為例，如下圖所示：

4. 打開下載驅(qū)動程序所在的文件夾，雙擊安裝文件開始安裝，按照界面上的提示安裝驅(qū)動程序并根據(jù)需要重啟實例。安裝完成后，如需驗證 GPU 是否正常工作，請查看設(shè)備管理器。

安裝失敗原因

Linux 系統(tǒng)驅(qū)動安裝失敗表現(xiàn)為 nvidia-smi 無法工作，通常原因如下：1. 系統(tǒng)缺乏編譯 kernel module 所需要的包，如 gcc，kernel-devel-xxx 等，導(dǎo)致無法編譯，最終安裝失敗。2. 系統(tǒng)里面存在多個版本的 kernel，由于 DKMS 的不正確配置，導(dǎo)致驅(qū)動編譯為非當(dāng)前版本 kernel 的 kernel module，導(dǎo)致 kernel module 安裝失敗。3. 安裝驅(qū)動后，升級了 kernel 版本導(dǎo)致原來的安裝失效。

標(biāo)簽：