還得是英特爾!科技企業(yè) All in AI,但這些創(chuàng)新真正引領時代
來源 | IT之家
作者 | 汐元
今年以來,chatGPT 的火熱出圈讓生成式 AI 掀起了全球人工智能新浪潮,AI,正成為變革千行百業(yè)的新動力,也是各大科技公司共同押注的未來。
比如 AMD 最近就在 Advancing AI 活動中推出了數(shù)據(jù)中心 AI 芯片 AMD Instinct MI300X GPU,還有結合最新 AMD CDNA 3 架構和“Zen 4”CPU 的 MI300A 加速處理單元 APU 等等,引發(fā)了外界廣泛關注。

而在“AI 改變世界”的探索之路上,其實有一家企業(yè)早早就展開了布局,就是英特爾。2018 年,英特爾就提出要在 PC 上引入 AI,還推出了“AI on PC Developer Program”的 AI PC 開發(fā)者計劃。在此之后,英特爾持續(xù)將 AI 能力融入到旗下酷睿處理器產品中,從第 10 代酷睿-X 開始,英特爾就已經在其 CPU 中添加了 AI、深度學習相關的加速指令,包括在架構層面提升 AI 的性能,SoC 中內置 Intel GNA 以加速低功耗 AI 在 PC 上的應用等等,并且還將 AI 加速單元引入到 Xe、ARC 架構的 GPU 中。
英特爾多年的探索成果也將在最近迎來一次集中釋放。12 月 15 日,英特爾就將在國內正式發(fā)布基于全新 Meteor Lake 架構的酷睿 Ultra 處理器,而在 Meteor Lake 處理器中,英特爾最重要的舉措,就是將 Al 引入客戶端 PC,并在 Meteor Lake 處理器架構中集成了獨立的 NPU 單元,帶來獨立的低功耗 AI 加速能力。

具體到 Meteor Lake 中加入的集成式 NPU 單元,它實現(xiàn)更高效能的 AI 計算,包含了 2 個神經計算引擎,能夠更好地支持包括生成式 AI、計算機視覺、圖像增強和協(xié)作 AI 方面的內容。而且,這枚 NPU 不是單一孤島式的架構,除了 NPU,CPU 和 GPU 也都可以進行 AI 運算,不同場景下會用不同的 AI 單元去應對,彼此協(xié)調,如此一來,其整體能耗比相比前代最多可以提升 8 倍之多。

而當生成式 AI 基本本確定為 AI 2.0 時代后,為了讓 AIGC 能夠更好地在 PC 本地端運行,英特爾也做了很多努力。
在我們傳統(tǒng)的認知里,運行類似 ChatGPT 這種大語言模型必須要有大顯存的顯卡支持,比如前面我們講到的 AMD 推出的 Instinct MI300X GPU,但是這距離廣大消費者確實有點遠,而英特爾為了讓面向消費端的 12、13 代酷睿平臺也能夠順利運行各種大語言模型并提供流暢的使用體驗,他們構建了 BigDL-LLM 庫,這個庫專門針對 Intel 硬件的低比特量化設計,支持 INT3、INT4、INT5、INT8 等各種低比特數(shù)據(jù)精度,性能更好,內存占用也更少。
通過這個庫,英特爾對各種大語言模型進行了優(yōu)化和支持,包括一些開源的、可以在本地運行的大語言模型。這個庫甚至可以在一臺搭載 16GB 內存的英特爾輕薄本的機器上運行參數(shù)量高達 160 億的大語言模型。此外還支持 LLaMA / LLaMA2、ChatGLM / ChatGLM2 等多個大語言模型。

且不說即將發(fā)布的酷睿 Ultra 系列,如今以第 12 代、第 13 代英特爾酷睿處理器和英特爾銳炫 A 系列顯卡為代表的英特爾多款客戶端芯片,均能提供強勁性能,以滿足生成式 AI 對于高算力的需求。對此IT之家也做了實際的測試。
測試中,小編選擇了一臺通過英特爾 Evo 平臺認證的輕薄本:華碩破曉 Air,這款輕薄本搭載英特爾 13 代酷睿 i7-1355U 處理器,16GB LPDDR5 內存。
小編在這臺華碩破曉 Air 上裝好英特爾推出的大語言模型 Demo。這個 Demo 集成了三個大語言模型,包括 ChatGLM2、LLaMA2 和 StarCoder。它們均通過英特爾的語料庫進行了優(yōu)化。
測試過程中,小編先在故事創(chuàng)作模式中讓大模型 Demo 幫我先一個公司年會的主持人開場白,它很快就將一段完整得體的開場文案呈現(xiàn)了出來,并且整個過程的 First Latency 只有 1249.8ms。如果是自己思考、編輯,得花很久,在 PC 上使用 AI 大模型,分分鐘就搞定了。

在大語言模型寫文案的時候,小編看了一下華碩破曉 Air 性能資源的調度情況,13 代酷睿 i7-1355U 處理器占用率達到了 100%,內存占用達到了 9.7GB(62%),Xe 核顯占用也達到了 39%??磥磉@個運算過程確實是在本地進行的。在英特爾不斷的優(yōu)化和 13 代酷睿處理器算力的提升下,確實能夠在輕薄本上實現(xiàn) AIGC 的落地。

接著小編又測試了一個問題,讓它提取一篇新聞的核心信息,它也能很快很準確地將新聞內容給“摘要”出來。這對于我們日常查詢資料、整理報告等都非常有用,可以大大提高我們完成這些工作的效率。


最后,小編讓大模型幫自己寫一篇朱自清《背影》的教學大綱,它同樣很快就列出了一套邏輯清晰完整,內容詳盡的大綱出來。對于工作有提煉、撰寫大綱需求的人,比如說老師,即便在沒有網絡的情況下,也能利用 AI 輔助教學工作,非常方便。

除了 CPU,英特爾也十分注重對 GPU 核顯性能的優(yōu)化,讓 GPU 也能在終端側 AIGC 任務中扮演更重要的角色。例如針對廣為人知的開源圖像生成模型 Stable Diffusion,英特爾就啟用了 OpenVINO 的加速,他們開發(fā)了一套 AI 框架,通過一行代碼的安裝,就可以加速 PyTorch 模型的運行。通過 Stable Diffusion 的 WebUI,可以在銳炬集成顯卡和 Arc 獨立顯卡上運行 Stable Diffusion Automatic1111。
通過實際測試,可以看到在華碩破曉 Air 輕薄本上,Stable Diffusion 在集成顯卡上的表現(xiàn)效果。96EU 版本的英特爾銳炬 Xe 顯卡強大的算力,可以支持 Stable Diffusion 軟件上運行 FP16 精度的模型,快速生成高質量圖片。小編讓它生成一張“正在看電視的男人”,在華碩破曉 Air 上,只用了 1 分多鐘,就“順利出片”了。

而在生成過程中,IT之家也通過性能資源管理器看到,GPU 的占用到了 100%,同時 CPU 也有 15% 的占用,可見這張圖片確實是在本地利用 GPU 進行渲染的。

在過去,我們很難想象輕薄本可以擁有這樣的性能,但隨著 13 代酷睿處理器在性能、功耗比方面的進步,以及銳炬 Xe Graphics (96EU) 在 FP16、FP32 浮點性能的大幅提升,同時加入了 INT8 整數(shù)計算能力,這些都大大增強了 GPU 整體的 AI 圖形計算能力。這也就是華碩破曉 Air 這樣的輕薄本也能在本地側很好地運行 Stable Diffusion 的重要因素。
并且在我們開頭說到的英特爾 Meteor Lake 處理器中,GPU 核顯性能還會得到進一步提升,將擁有 8 個 Xe GPU 核心 128 個渲染引擎,更增加了 8 個硬件的光追單元,還會引入 Arc 顯卡的異步拷貝,亂序采樣等功能,也對 DX12U 做了優(yōu)化。

從 AI 變革世界的發(fā)展角度來說,英特爾將 AI 廣泛引入 PC、帶領數(shù)億 PC 進入 AI 時代的努力是有著重要意義的,因為至少在可預見的未來,PC 都是人類最重要的生產力工具之一,英特爾的這些創(chuàng)新技術,讓 AIGC 能夠穩(wěn)定、流暢地部署在 PC 終端側,這是一種來自于底層的、根本性的賦能,讓 PC 的生產力屬性能夠有脫胎換骨的變革,而個人計算的變革,進一步也會演化成全社會生產力變革。

所有這些,都能充分證明英特爾在 AIGC 領域的領導地位。他們的不斷創(chuàng)新,為用戶提供更智能、高效的計算體驗,推動人工智能技術的發(fā)展和應用。相信隨著技術的不斷進步和完善,我們可以期待在未來看到更多更強來自英特爾的端云結合的 AI 應用和解決方案,讓我們能夠更快邁進由 AI 驅動的生產力大解放的時代。
還得是英特爾!科技企業(yè) All in AI,但這些創(chuàng)新真正引領時代的評論 (共 條)
