【知乎】 英偉達或?qū)⑼瞥鲠槍χ袊鴧^(qū)的最新改良版 AI 芯片,哪些信息值得關(guān)注?
?英偉達或?qū)⑼瞥鲠槍χ袊鴧^(qū)的最新改良版 AI 芯片,哪些信息值得關(guān)注?

Morris.Zhang
EECS / AI-DL / DSA和邏輯半導(dǎo)體從業(yè)者

TSMC <南科Fab18A、臺中Fab15B和臺中先進封裝5廠> 的Cleanroom里面,此前降規(guī)生產(chǎn)的幾批naked die,還未來得及切割、未來得及鍍上金屬線和電極、未來得及封裝成H800/L40S;那么后道再重修幾步點斷工序,可以封裝成H20/L20...,生成新的SKUs;在晶圓制造行業(yè)算是老手藝的。
這些特供/降規(guī)生產(chǎn)的H20 / L20等型號,可以判斷是H800和L40S的裸die的后道物理點斷工序的產(chǎn)物,重新封裝、重新修改固件。因為這幾個降規(guī)閹割型號的發(fā)布時間太快,不可能是重做掩膜、重新投片的產(chǎn)物,那么通過后道的物理點斷失效處理+再封裝,進而推出新的SKUs就是合理答案了。
半導(dǎo)體制造的BEOL工序,可以在無需重做Mask的前提下使用一些管/線修補工藝:表面激光點斷、CoWoS層面切割,甚至隧道鏡下手工重新雕線。
A - 表面激光點斷:
通常情況,一顆Digital Logic芯片的cache size、PHY channels是可以通過后道ATM環(huán)節(jié)重修/點斷做失效屏蔽處理的,算是幾十年的傳統(tǒng)藝能,例如早期的Pentium/Celeron處理器的重要區(qū)別之一就是點斷cache;
H20對應(yīng)的H100/800系列是Hopper架構(gòu)(HBM3e、有CoWoS、NVLink)
L20對應(yīng)的L40S系列是Ada Lovelace架構(gòu)(GDDR6,無CoWoS,PCIe)
P.S:以及Firmware修改;
H100/H800之間比較關(guān)鍵的SerDes PHY的區(qū)別,是可以局部物理點斷失效的;而相比之下,H20割掉的dark Si面積較大,常規(guī)的手工點斷可能不值得,應(yīng)該是重新做Layout,
但是除了SerDes PHY的區(qū)別,還有FP64單元面積、Tensor core單元面積的區(qū)別,這部分不好定論,但可以推測是類似物理屏蔽冗余設(shè)計的操作,畢竟如今的設(shè)計方法學(xué)都是模塊化的,BEOL環(huán)節(jié)就是die測試后的70分與90分區(qū)別,以及GPU芯片上不止一個FP64,局部物理點斷失效是合理的,即使是重新Layout;
激光點斷工序,倘若是局部微小部分,曾經(jīng)可以手工完成(相當(dāng)于微雕);面積稍大的部分,可以重新Layout預(yù)留點斷位置,再由機器完成點斷失效。通常的Fab都會配置專業(yè)設(shè)備,由激光直接在die上切割線路/溝槽;或者如Chandler AZ的Intel Fab42工廠里,還有直接在專用隧道鏡下面手工雕刻晶體管的設(shè)備,宣稱是原子尺度的,不同于尋常的掃描隧道顯微鏡(STM);幾年前Intel有個宣傳視頻,提到這臺設(shè)備,全球持證的操作手不超過14人。其實在28nm平面晶體管以前,顯微鏡手雕不算是高難度動作,進入FinFet以后,由于垂直方向的3D柵極結(jié)構(gòu),手雕設(shè)備的代價和操作員就變得遙不可及了。
舉個例子:
A、如今市面仍可見的Intel K系列CPU,就是點斷顯核的70分die;
B、Apple Si的前兩代,官宣8核NPU,實際有9個,就是設(shè)計冗余;
以上這些,在晶圓制造工序中也算是基準(zhǔn)操作,特別是中試廠/線,Alpha - Beta流片的過渡期間,有小錯就會直接手改,不會返回修改Mask重新流片的。
芯片設(shè)計者的角度,本質(zhì)就是Layout設(shè)計的冗余度;因為FEOL光刻過程是強調(diào)高良率的,具體到失效晶體管數(shù),測試環(huán)節(jié)判斷模塊級別的良率,壞點可以直接電路割斷,后續(xù)引線、封蓋工藝流程都不變。就如同3年前的例子:Intel那批不帶顯核的K系列CPU的笑談,內(nèi)部實情是顯核測試不及格的廢片,通過物理點斷,導(dǎo)線和引腳照舊,重新封裝銷售;然而未想到的是,割掉的顯核插電以后不受控制,偶爾耗電巨大,經(jīng)用戶投訴,建環(huán)境驗證實錘,坊傳最后每顆CPU賠付1美元。這個故事反映的情況就是我們上文所講的,同一條流水線,經(jīng)過點斷失效的芯片,后續(xù)的導(dǎo)線/引腳和封裝過程不變,可以繼續(xù)銷售。尤其早期Intel 10nm的良率很低,積壓很多這樣的半廢片,才會把顯核失效的芯片打上K標(biāo)繼續(xù)銷售(但是Intel K的例子也告訴我們,即使是點斷失效的電路,也需要做測試)。
如今這個“冗余度”可能有很大空間,畢竟H100已然是814mm2的大die,幾乎接近reticle尺寸邊緣了。而如今發(fā)布的H20降規(guī)型號,確認(rèn)是六分之一的性能,但是成本相同,可以想象就相當(dāng)于是不打麻藥的生閹了:)
正常情況下,物理點斷失效的電路是不能從外部第三方察覺的,如今芯片是10幾層metal,die表面修改了,上面金屬層是看不穿的;當(dāng)然除非是用到反工程的“CT掃描”(湖南某高校的絕藝:)。
B - CoWoS層面點斷:
除了在Logic die層面的激光點斷工藝之外,針對某些特殊層面的點斷要求,其實在CoWoS的Interposer層次做差異化,反而更經(jīng)濟,也更容易保證良率;比如屏蔽PHY Channels性能、比如縮減HBM3e和GDDR6性能,在硅鏈接層修改差異化容易,在die上修改就得不償失了。以及,Interposer層又不用幾納米精度電路,55nm大概足夠滿足了(就是最上面那層metal的線寬)。
但是,CoWoS Interposer上面可以屏蔽PHY和RAM,但是無法屏蔽FP64單元、Tensor core單元這樣的計算logic面積;這就需要補充用到前文所說的點斷失效方法,die表面畢竟是硬件開關(guān)電路。(玩笑:再不濟,表面都是PN極開關(guān),估計點個屏蔽涂層就絕緣了)。
BTW:聽到前學(xué)長談過一個反工程概念,即把CoWoS掰開,換一層自定義的...
綜上,我們看到進一步特供/降規(guī)生產(chǎn)的H20/L20等型號,可以判斷是H800和L40S的裸die的后道物理點斷工序的產(chǎn)物,同時重新封裝、重新修改Firmware。因為這幾個降規(guī)閹割型號發(fā)布的時間太快,不可能是重做掩膜、重新投片的產(chǎn)物,那么后道做物理點斷失效處理+再封裝,進而推出新的SKUs就是答案了?;叵隢vidia之前積壓的50億美元的GPU未能交付(可能都沒切),如今返廠做后道加工才導(dǎo)致如此快速的發(fā)布閹割型號,那么國內(nèi)廠商50億美元的訂單大概還是會讓Nvidia賺走。
C - 對于Nvidia營收的影響:
來自三方的數(shù)據(jù):在中國區(qū),用來作為AI加速器的GPU芯片僅占總營收的小于10%(中國區(qū)占比全球營收小于30%,多數(shù)為消費級產(chǎn)品的貢獻)。

兩組數(shù)據(jù):
Nvidia 2023財年在中國(含香港)收入57.85億美元,2022財年為71.11億美元,同比減少13.26億美元。
Nvidia 2023財年在中國臺灣地區(qū)收入69.86億美元,2022財年為85.44億美元,同比減少15.58億美元。
當(dāng)前BIS新規(guī)下,一方面引進Nvidia芯片受到限制,二方面國內(nèi)AI芯片企業(yè)面臨海外流片限制。因此國產(chǎn)芯片替代變得更重要,如今有華為昇騰910B(原生適配Pytorch2.1)、寒武紀(jì)、燧原、海光等等公司均已發(fā)布適用于AI大模型訓(xùn)推的硬件加速產(chǎn)品;加之國內(nèi)晶圓代工廠的7nm產(chǎn)能擴充(今年新購ASML 2050/2100 DUV以及據(jù)傳2024年預(yù)定的45臺NXT 1980Di),未來AI加速器行業(yè)的國產(chǎn)替代空間可期。
引申閱讀:Morris.Zhang - 美政府?dāng)M阻止英偉達等出口高性能 AI 芯片,有何影響?
美政府?dāng)M阻止英偉達等出口高性能 AI 芯片,英偉達、AMD 股價大跌,國內(nèi)廠商稱已提前囤貨,有何影響?188 贊同 · 43 評論回答

編輯于 2023-11-09 23:43