手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 【知乎】英偉達或?qū)⑼瞥鲠槍χ袊鴧^(qū)的最新改良版 AI 芯片，哪些信息值得關(guān)注？

【知乎】英偉達或?qū)⑼瞥鲠槍χ袊鴧^(qū)的最新改良版 AI 芯片，哪些信息值得關(guān)注？

2023-11-10 03:14 作者:失傳技術(shù) 0人讀過 | 我要投稿

?英偉達或?qū)⑼瞥鲠槍χ袊鴧^(qū)的最新改良版 AI 芯片，哪些信息值得關(guān)注？

Morris.Zhang

EECS / AI-DL / DSA和邏輯半導(dǎo)體從業(yè)者

TSMC <南科Fab18A、臺中Fab15B和臺中先進封裝5廠> 的Cleanroom里面，此前降規(guī)生產(chǎn)的幾批naked die，還未來得及切割、未來得及鍍上金屬線和電極、未來得及封裝成H800/L40S；那么后道再重修幾步點斷工序，可以封裝成H20/L20...，生成新的SKUs；在晶圓制造行業(yè)算是老手藝的。

這些特供/降規(guī)生產(chǎn)的H20 / L20等型號，可以判斷是H800和L40S的裸die的后道物理點斷工序的產(chǎn)物，重新封裝、重新修改固件。因為這幾個降規(guī)閹割型號的發(fā)布時間太快，不可能是重做掩膜、重新投片的產(chǎn)物，那么通過后道的物理點斷失效處理+再封裝，進而推出新的SKUs就是合理答案了。

半導(dǎo)體制造的BEOL工序，可以在無需重做Mask的前提下使用一些管/線修補工藝：表面激光點斷、CoWoS層面切割，甚至隧道鏡下手工重新雕線。

A - 表面激光點斷：

通常情況，一顆Digital Logic芯片的cache size、PHY channels是可以通過后道ATM環(huán)節(jié)重修/點斷做失效屏蔽處理的，算是幾十年的傳統(tǒng)藝能，例如早期的Pentium/Celeron處理器的重要區(qū)別之一就是點斷cache；

H20對應(yīng)的H100/800系列是Hopper架構(gòu)（HBM3e、有CoWoS、NVLink）
L20對應(yīng)的L40S系列是Ada Lovelace架構(gòu)（GDDR6，無CoWoS，PCIe）
P.S：以及Firmware修改；

H100/H800之間比較關(guān)鍵的SerDes PHY的區(qū)別，是可以局部物理點斷失效的；而相比之下，H20割掉的dark Si面積較大，常規(guī)的手工點斷可能不值得，應(yīng)該是重新做Layout，

但是除了SerDes PHY的區(qū)別，還有FP64單元面積、Tensor core單元面積的區(qū)別，這部分不好定論，但可以推測是類似物理屏蔽冗余設(shè)計的操作，畢竟如今的設(shè)計方法學(xué)都是模塊化的，BEOL環(huán)節(jié)就是die測試后的70分與90分區(qū)別，以及GPU芯片上不止一個FP64，局部物理點斷失效是合理的，即使是重新Layout；

激光點斷工序，倘若是局部微小部分，曾經(jīng)可以手工完成（相當(dāng)于微雕）；面積稍大的部分，可以重新Layout預(yù)留點斷位置，再由機器完成點斷失效。通常的Fab都會配置專業(yè)設(shè)備，由激光直接在die上切割線路/溝槽；或者如Chandler AZ的Intel Fab42工廠里，還有直接在專用隧道鏡下面手工雕刻晶體管的設(shè)備，宣稱是原子尺度的，不同于尋常的掃描隧道顯微鏡（STM）；幾年前Intel有個宣傳視頻，提到這臺設(shè)備，全球持證的操作手不超過14人。其實在28nm平面晶體管以前，顯微鏡手雕不算是高難度動作，進入FinFet以后，由于垂直方向的3D柵極結(jié)構(gòu)，手雕設(shè)備的代價和操作員就變得遙不可及了。

舉個例子：
A、如今市面仍可見的Intel K系列CPU，就是點斷顯核的70分die；
B、Apple Si的前兩代，官宣8核NPU，實際有9個，就是設(shè)計冗余；

以上這些，在晶圓制造工序中也算是基準(zhǔn)操作，特別是中試廠/線，Alpha - Beta流片的過渡期間，有小錯就會直接手改，不會返回修改Mask重新流片的。

芯片設(shè)計者的角度，本質(zhì)就是Layout設(shè)計的冗余度；因為FEOL光刻過程是強調(diào)高良率的，具體到失效晶體管數(shù)，測試環(huán)節(jié)判斷模塊級別的良率，壞點可以直接電路割斷，后續(xù)引線、封蓋工藝流程都不變。就如同3年前的例子：Intel那批不帶顯核的K系列CPU的笑談，內(nèi)部實情是顯核測試不及格的廢片，通過物理點斷，導(dǎo)線和引腳照舊，重新封裝銷售；然而未想到的是，割掉的顯核插電以后不受控制，偶爾耗電巨大，經(jīng)用戶投訴，建環(huán)境驗證實錘，坊傳最后每顆CPU賠付1美元。這個故事反映的情況就是我們上文所講的，同一條流水線，經(jīng)過點斷失效的芯片，后續(xù)的導(dǎo)線/引腳和封裝過程不變，可以繼續(xù)銷售。尤其早期Intel 10nm的良率很低，積壓很多這樣的半廢片，才會把顯核失效的芯片打上K標(biāo)繼續(xù)銷售（但是Intel K的例子也告訴我們，即使是點斷失效的電路，也需要做測試）。

如今這個“冗余度”可能有很大空間，畢竟H100已然是814mm2的大die，幾乎接近reticle尺寸邊緣了。而如今發(fā)布的H20降規(guī)型號，確認(rèn)是六分之一的性能，但是成本相同，可以想象就相當(dāng)于是不打麻藥的生閹了：）

正常情況下，物理點斷失效的電路是不能從外部第三方察覺的，如今芯片是10幾層metal，die表面修改了，上面金屬層是看不穿的；當(dāng)然除非是用到反工程的“CT掃描”（湖南某高校的絕藝：）。

B - CoWoS層面點斷：

除了在Logic die層面的激光點斷工藝之外，針對某些特殊層面的點斷要求，其實在CoWoS的Interposer層次做差異化，反而更經(jīng)濟，也更容易保證良率；比如屏蔽PHY Channels性能、比如縮減HBM3e和GDDR6性能，在硅鏈接層修改差異化容易，在die上修改就得不償失了。以及，Interposer層又不用幾納米精度電路，55nm大概足夠滿足了（就是最上面那層metal的線寬）。

但是，CoWoS Interposer上面可以屏蔽PHY和RAM，但是無法屏蔽FP64單元、Tensor core單元這樣的計算logic面積；這就需要補充用到前文所說的點斷失效方法，die表面畢竟是硬件開關(guān)電路。（玩笑：再不濟，表面都是PN極開關(guān)，估計點個屏蔽涂層就絕緣了）。

BTW：聽到前學(xué)長談過一個反工程概念，即把CoWoS掰開，換一層自定義的...

綜上，我們看到進一步特供/降規(guī)生產(chǎn)的H20/L20等型號，可以判斷是H800和L40S的裸die的后道物理點斷工序的產(chǎn)物，同時重新封裝、重新修改Firmware。因為這幾個降規(guī)閹割型號發(fā)布的時間太快，不可能是重做掩膜、重新投片的產(chǎn)物，那么后道做物理點斷失效處理+再封裝，進而推出新的SKUs就是答案了?；叵隢vidia之前積壓的50億美元的GPU未能交付（可能都沒切），如今返廠做后道加工才導(dǎo)致如此快速的發(fā)布閹割型號，那么國內(nèi)廠商50億美元的訂單大概還是會讓Nvidia賺走。

C - 對于Nvidia營收的影響：

來自三方的數(shù)據(jù)：在中國區(qū)，用來作為AI加速器的GPU芯片僅占總營收的小于10%（中國區(qū)占比全球營收小于30%，多數(shù)為消費級產(chǎn)品的貢獻）。

兩組數(shù)據(jù)：
Nvidia 2023財年在中國（含香港）收入57.85億美元，2022財年為71.11億美元，同比減少13.26億美元。
Nvidia 2023財年在中國臺灣地區(qū)收入69.86億美元，2022財年為85.44億美元，同比減少15.58億美元。

當(dāng)前BIS新規(guī)下，一方面引進Nvidia芯片受到限制，二方面國內(nèi)AI芯片企業(yè)面臨海外流片限制。因此國產(chǎn)芯片替代變得更重要，如今有華為昇騰910B（原生適配Pytorch2.1）、寒武紀(jì)、燧原、海光等等公司均已發(fā)布適用于AI大模型訓(xùn)推的硬件加速產(chǎn)品；加之國內(nèi)晶圓代工廠的7nm產(chǎn)能擴充（今年新購ASML 2050/2100 DUV以及據(jù)傳2024年預(yù)定的45臺NXT 1980Di），未來AI加速器行業(yè)的國產(chǎn)替代空間可期。

引申閱讀：Morris.Zhang - 美政府?dāng)M阻止英偉達等出口高性能 AI 芯片，有何影響？

美政府?dāng)M阻止英偉達等出口高性能 AI 芯片，英偉達、AMD 股價大跌，國內(nèi)廠商稱已提前囤貨，有何影響？188 贊同 · 43 評論回答

編輯于 2023-11-09 23:43

標(biāo)簽：