2023/06 特斯拉AI能力的擴大 - H100, Dojo D1, D2, etc.

注 1:封面圖片來源[1]。
注 2:文章內容和其中圖片出自此篇分析原文[2],以及譯者的翻譯、修改和注釋。
注 3:文章內容來自于原文翻譯,不代表譯者的觀點。

特斯拉勵志成為世界領先的人工智能公司之一。到目前為止,他們并沒有部署最先進的自動駕駛技術;這一榮譽屬于 Alphabet 的 Waymo。此外,特斯拉在生成式人工智能領域(譯者注:GPT)毫無存在感。盡管如此,由于數(shù)據收集的優(yōu)越性、專用計算能力、創(chuàng)新文化和領先的人工智能研究人員,他們有可能在自動駕駛汽車和機器人領域取得領先地位。
目前,特斯拉的 AI 基礎設施非常有限,只有約 4,000 塊 V100 和約 16,000 塊 A100(譯者注:就在兩天前2023/08/29,一臺由 10,000 塊最新 H100 構成的 AI 計算機在特斯拉上線)。與全球其他大型科技公司相比,這是一個非常小的數(shù)字,因為像微軟和 Meta 這樣的公司擁有超過 100,000 個 GPU,并且他們計劃在短中期內將這些數(shù)字翻倍。造成特斯拉薄弱的 AI 基礎設施的部分原因是由于他們內部 D1 訓練芯片的多次延遲造成的。
然而,現(xiàn)在情況正在迅速改變。


特斯拉正計劃在 1.5 年內將其 AI 容量大幅提升超過 10 倍。其中一部分是為了他們自身的能力,但也有很大一部分是為了?X.AI。今天,我們想要深入探討特斯拉的 AI 容量,H100,以及按季度估計的 Dojo 能力的增長,并探討由于他們的模型架構、訓練基礎設施和邊緣推理(譯者注:此處"邊緣推理"是指特斯拉車輛或機器人里的 AI 模型的運行),包括 HW 4.0,而對特斯拉提出的獨特需求。最后,我們想要討論一下?X.AI?正在做些什么,這是馬斯克對標 OpenAI 的項目,已經吸引了一些著名的 OpenAI 工程師。
D1 訓練芯片的故事是一個漫長而艱辛的過程。它面臨著從硅設計到電力傳遞的問題,但現(xiàn)在特斯拉聲稱它已經準備好進入聚光燈下,開始批量生產了。稍稍回顧一下,大約從 2016 年起,特斯拉一直在為其汽車設計內部 AI 芯片,并自從 2018 年起用于數(shù)據中心應用。在芯片被公布之前,我們曾獨家披露了他們所使用的特殊封裝技術。這項技術被稱為 InFO SoW。簡單地說,可以將其視為一個與晶圓尺寸相當?shù)亩嘈酒庋b技術。原則上與 Cerebras 類似(譯者注:Product - Chip - Cerebras),但 InFO SoW 具有允許已知良好晶片測試的優(yōu)勢。作為特斯拉架構的最獨特和有趣的方面,這個 InFO-SoW 中封裝了 25 個芯片,但沒有內存。


我們在 2021 年詳細地討論了他們芯片架構的利弊。最有趣的是,有消息披露,因為 D1 自身芯片內部內存不足,特斯拉后來不得不制作另一款基于 PCIe 的芯片,用于給 D1 提供外部內存連接。
特斯拉曾多次計劃在 2022年 進行量產,但由于各種芯片和系統(tǒng)的問題,量產從未實現(xiàn)?,F(xiàn)在已經是 2023 年中期了,它終于開始大規(guī)模量產了。該架構非常適合特斯拉獨特的 AI 訓練場景,但值得指出的是,該構架因為受限于內存帶寬瓶頸的影響,它并不適用于大型語言模型訓練。
特斯拉的訓練場景是獨特的,因為它專注于圖像網絡。因此,他們的架構有很大的不同。過去,我們曾討論過深度學習推薦網絡和基于 Transformer 的語言模型需要非常不同的架構。圖像/視頻識別網絡對計算、芯片間通信、芯片內部內存和芯片外部內存儲的要求截然不同。
這些卷積模型(譯者注:指特斯拉的圖像/視頻識別模型)在訓練過程中對 GPU 的利用率非常低。隨著 Nvidia 的下一代芯片在 Transformer 優(yōu)化的道路上越走越遠,尤其是稀疏 MoE(多路復用編碼)方面的優(yōu)化,證明了特斯拉對于自己的獨特場景優(yōu)化的卷積架構的投資的正確性,應該會取得良好的效果,因為這些圖像網絡必須符合特斯拉推理基礎設施的限制。
特斯拉第二代全自動駕駛芯片 HW 4.0
雖然訓練芯片是由臺積電制造的,但在特斯拉電車內部運行 AI 推理芯片被稱為全自動駕駛(FSD)芯片。特斯拉電車上的模型非常有限,因為他們堅信不需要在電車用巨大的性能來實現(xiàn)全自動駕駛。此外,特斯拉比 Waymo 和Cruise 有更嚴格的成本約束,因為他們需要大量地生產和出售隨車搭載的芯片。與此同時,Alphabet 的 Waymo 和 GM 的 Cruise 在開發(fā)和早期測試階段使用了成本高出 10 倍的全尺寸 GPU,并計劃為他們的汽車制造更快(同時也是更昂貴)的 SoCs(芯片)。
第二代芯片從 2023 年 2 月開始在特斯拉電車上使用,這款芯片的設計與第一代芯片非常相似。第一代芯片基于三星的 14nm 工藝,擁有三個四核的芯片,總共有 12 個 Arm Cortex-A72 核,主頻為 2.2 GHz。在第二代設計中,公司將 CPU 數(shù)量提升到了五個四核芯片,總共有 20 個 Cortex-A72 核。
第二代 FSD 芯片最重要的部分是三個 NPU(神經網絡處理器)核心。這三個核心每個使用 32MB SRAM 內存來存儲模型權重和激活值。每個芯片時鐘周期(cycle)里,從 SRAM 讀取 256 個字節(jié)的激活值和 128 個字節(jié)的模型權重,傳送到乘積累加單元(MAC)。MAC 的設計是一個網格,每個 NPU 核心有一個 96x96 的網格,總共有 9,216 個 MAC,每個時鐘周期里可以進行 18,432 個操作。每個芯片上的三個 NPU 以 2.2 GHz 的頻率運行,總計算能力為 121 萬億次每秒(TOPS)。

第二代 FSD 擁有 256GB 的 NVMe 存儲和 16GB 的 Micron GDDR6,速度為 14Gbps,連接在 128 位內存總線上,總線帶寬 224GB/s。后者(總線帶寬)是最值得注意的變化,因為帶寬與上一代相比增加了約 3.3 倍。通過一、二代的 FLOPs(計算能力)和帶寬的比較,可以看到,上一代 HW3 存在計算能力超過帶寬的問題。每個新一代 HW 4.0 板上有兩塊 FSD 芯片。
HW4 的性能提升帶來了額外的功耗。與 HW3 相比,HW4 的閑置功耗約為兩倍。在峰值時,我們也預計它會更高。HW4 外表面上的文字顯示為 10 安培和 16 伏特,相當于(最大)160 瓦的功率。
盡管 HW4 的性能提高,特斯拉仍希望 HW3 也能實現(xiàn)全自動駕駛,可能是因為他們不想為已購買 FSD 的現(xiàn)有 HW3 用戶進行升級改裝。
娛樂系統(tǒng)使用了 AMD GPU/APU。與上一代相比,它現(xiàn)在也位于與 FSD 芯片相同的主板上,而不是一個獨立的子板。

HW4 平臺支持 12 個攝像頭,其中一個備用,因此有 11 個攝像頭處于激活狀態(tài)。在上一代中,前置攝像頭盒里有三個低分辨率的 120 萬像素的攝像頭。新一代平臺使用了兩個更高分辨率的 500萬像素的攝像頭。
特斯拉目前不使用 LIDAR 傳感器或其他類型的非攝像頭方法。過去,他們曾使用雷達,但在后來被移除。這顯著地降低了車輛制造成本,特斯拉非常專注于成本優(yōu)化。公司認為純攝像頭感知是實現(xiàn)自動駕駛的可能途徑。然而,他們還指出,如果有可行的雷達可用,他們愿意將其與攝像頭系統(tǒng)整合。
在 HW4 平臺里,有一個名為 Phoenix 的特斯拉自己設計的雷達。Phoenix 將雷達系統(tǒng)與攝像頭系統(tǒng)結合起來,旨在通過利用更多數(shù)據來創(chuàng)造更安全的車輛(自動駕駛)。Phoenix 雷達在 76-77 GHz 波段上工作,峰值有效等向輻射功率(EIPR)為 4.16 瓦特,平均等向輻射功率為 177.4 毫瓦。它是一種非脈沖型汽車雷達系統(tǒng),具有三種感知模式。雷達 PCB 板上包括一個用于傳感器融合的 Xilinx Zynq XA7Z020 FPGA 可編程芯片。
特斯拉 AI 模型的不同之處
特斯拉致力于為其智能化機器人和電車提供基礎性的 AI 模型。兩者都需要感知到周圍環(huán)境并在其中進行導航,因此可以將相同類型的 AI 模型應用于兩者。為未來的智能自主平臺創(chuàng)建高效的模型需要大量的研究,更具體地說,需要大量的數(shù)據。此外,使用這些模型的推理必須在極低的功耗和低延遲的情況下完成。(機器人和電車上的)硬件極大地限制了特斯拉 AI 模型的大小。
在所有公司中,特斯拉擁有最大規(guī)模的數(shù)據集,用于訓練深度學習神經網絡。路上的每輛特斯拉電車都使用傳感器和圖像來捕獲數(shù)據,再乘以路上特斯拉電車的總數(shù)量,給了他們一個極其龐大的數(shù)據集。特斯拉將其數(shù)據收集部分稱為“全車隊自動標注”。每輛特斯拉電車都會周而復始的收集、記錄數(shù)據,每個記錄約長 45-60 秒,里面包含很多傳感器數(shù)據,包括視頻、慣性測量單元(IMU)數(shù)據、GPS、里程數(shù)據等,并將其發(fā)送到特斯拉的數(shù)據中心的 AI 訓練服務器上。
特斯拉的模型進行分割、掩碼、深度識別、點匹配和其他任務的訓練。通過在路上數(shù)百萬輛特斯拉電車,特斯拉擁有大量非常高質量的標記好的數(shù)據源。這使得該公司可以在其數(shù)據中心的Dojo超級計算機上進行持續(xù)訓練。
然而,特斯拉在海量數(shù)據方面的信念與公司目前為止建立的相對薄弱的用于 AI 訓練的硬件基礎設施相矛盾。特斯拉只使用了他們收集到的數(shù)據的一小部分。由于其嚴格的電車內部推理硬件的限制,特斯拉非常喜歡用數(shù)據過度訓練(overtrain)一眾小模型(譯者注:HW 3 和 4 都相對來說比較弱,無法運行大模型?),來達到最佳的自動駕駛的水平。
過度訓練的小模型會導致全自動駕駛性能遇到瓶頸,而且也無法使用所有收集到的數(shù)據。許多公司的選擇是用盡可能大的數(shù)據集進行模型訓練,生成大模型,因為他們準備在車子里用很強大的 AI 推理芯片。例如,Nvidia 計劃在2025 年向汽車客戶提供具有超過 2,000 TOPS 的計算能力的 DRIVE Thor 芯片,這比特斯拉的新 HW4 的能力高出 15 倍以上。此外,Nvidia 的架構可以更加靈活地使用其他模型類型。
譯者的話
真正的汽車廠(Ford, GM, VW, BMW, etc)沒有特斯拉 AI 軟件、硬件強;
真正的軟件廠(谷歌,Waymo)沒有特斯拉的車多;
所有人都沒有特斯拉數(shù)據多;
別人堆硬件(更猛的 GPU 集群,更好的車載推理芯片,但要等),特斯拉堆數(shù)量,就現(xiàn)在;
別人走人族、神族路線,特斯拉走蟲族方向!
參考
^https://www.vehiclesuggest.com/tesla-activates-nvidia-h100-gpu-cluster-for-fsd-training/
^Dylan Patel, Aleksandar Kostovic, 2023/06/28, ”Tesla AI Capacity Expansion – H100, Dojo D1, D2, HW 4.0, X.AI, Cloud Service Provider“?https://www.semianalysis.com/p/tesla-ai-capacity-expansion-h100