認真聊聊AIGC時代的一個核心問題
若干年后,人們回想起2023年,也許會把這一年定義為真正意義上的全民 AIGC 元年。這一年,無論國內(nèi)國外,無論巨頭、雄心勃勃的中小公司,大家都在爭先恐后的推出各自的 AI 產(chǎn)品,想要成為這輪浪潮過后,仍然留在沙灘上的那波人。
騰訊云關于AIGC的解決方案,已經(jīng)全部收錄在工具指南中,感興趣的朋友可以參考學習~?
1.
和以往的小打小鬧不同,這次的AI技術普及,面向的是全人類,從語言對話開始,逐步的去改造衣食住行的方方面面。這里的一個特點,就是「大」,用戶量大、模型參數(shù)大、數(shù)據(jù)量大,想要處理如此多的數(shù)據(jù),對背后提供支持的系統(tǒng)要求非常高。
百億量級的語料如何存儲,如何訓練模型,訓練好的模型怎樣能夠快速推理,結(jié)果如何高效管理,怎樣服務于千萬、億級別的用戶,每一項都是巨大的挑戰(zhàn)。
最近在調(diào)研大模型相關的底層技術內(nèi)容,查閱資料的時候發(fā)現(xiàn)騰訊云存儲在這方面做出了非常多出色的工作,他們甚至已經(jīng)給出了一套完成度非常高的AIGC解決方案。
2.
AIGC想要真正的面向全民應用,必須要解決訓練和推理過程中,繁雜數(shù)據(jù)的存儲、利用問題。
了解數(shù)據(jù)的同學可能聽過一個概念:數(shù)據(jù)湖(Data Lake)。數(shù)據(jù)湖是一個集中存儲各種結(jié)構化和非結(jié)構化數(shù)據(jù)的存儲庫,其中包括原始數(shù)據(jù)、批處理數(shù)據(jù)和實時流數(shù)據(jù)。
通過將AI算法和模型應用于數(shù)據(jù)湖中的數(shù)據(jù),可以實現(xiàn)數(shù)據(jù)的分析、挖掘和預測等智能化處理。不同的處理平臺可以通過數(shù)據(jù)湖連接到數(shù)據(jù),并共享和流動數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)在多個平臺間的靈活應用和協(xié)同工作。
我們可以把核心需求分為兩部分:
1、訓練場景存儲訴求:數(shù)據(jù)湖統(tǒng)一存儲;數(shù)據(jù)在業(yè)務間自由流動;高吞吐、低時延。
2、推理場景核心訴求:內(nèi)容審核;內(nèi)容管理。

3.
這部分是重頭戲,了解了核心訴求之后,我們來看下騰訊云存儲給出的AIGC解決方案:

來帶著大家仔細走一遍這套流程。
第一步,數(shù)據(jù)集下載與預處理
AI想要變強,就得像個巨嘴獸一樣,對于數(shù)據(jù)要來者不拒,無論是怎樣格式的數(shù)據(jù),無論是存放在什么地方的數(shù)據(jù),無論是多大的數(shù)據(jù),來了都得一口吞下。
騰訊云存儲的這套方案就支持多源數(shù)據(jù)存儲、多格式數(shù)據(jù)存儲、海量數(shù)據(jù)存儲,同時,如果輸入進來的數(shù)據(jù)信息價值密度低也不用擔心,它能夠?qū)?shù)據(jù)進行預處理,丟棄臟數(shù)據(jù),保留有價值的內(nèi)容。
具體是怎么做到的呢:
提供全球多地域核心機房,公網(wǎng)帶寬為TB級別,提供順暢的數(shù)據(jù)下載體驗;
通過Flink和Spark等數(shù)據(jù)分析框架,提供流批一體的低延遲處理能力,滿足預處理性能訴求;
基于大數(shù)據(jù)組件容器化部署能力和云原生對象存儲,實現(xiàn)計算資源和存儲資源的 彈性擴展;
基于數(shù)據(jù)湖存儲GooseFS跨園區(qū)緩存熱數(shù)據(jù);基于對象存儲COS的跨地域復制 能力,將境外數(shù)據(jù)集近實時傳輸至國內(nèi)。
用戶可以進一步使用數(shù)據(jù)萬象等能力滿足跨境數(shù)據(jù)合規(guī)等要求。

第二步,為數(shù)據(jù)訓練過程加速
對于百億、千億級別的數(shù)據(jù),如果還是使用傳統(tǒng)的訓練方法,耗費的時間應該是以年為單位的。面對這一難題,騰訊云存儲設計了完整的訓練加速方案。
首先通過GooseFS將訓練數(shù)據(jù)加載到GPU內(nèi)存、本地盤或者可用區(qū)全閃存儲集群等不同級別的緩存中,縮短IO路徑,提升數(shù)據(jù)訪問性能。
相比起從對象存儲COS中直接讀取,能夠降低延遲,提升IOPS和吞吐。將全量數(shù)據(jù)持久化在對象存儲上,提供海量低成本存儲。同時通過GooseFS加速數(shù)據(jù)訪問,達到最佳性價比。

一番操作下來,數(shù)據(jù)湖存儲的QPS和帶寬的單桶OPS指標可橫向擴展至10w級,數(shù)據(jù)湖存儲的QPS和帶寬指標可橫向擴展至TB級,完全能夠滿足模型大數(shù)據(jù)量快速訓練的需求。
第三步,為推理過程提供全方位審核
AI推理的結(jié)果是要面向成千上萬的用戶的,在質(zhì)量這塊一定要嚴格把關。貼心的騰訊云團隊早已在這方面下了苦功夫,為應用保駕護航。

從示意圖中可以看出,在和用戶的交互過程中,無論是用戶的輸入,還是大模型的輸出,都會經(jīng)過嚴密的內(nèi)容審核流程,極大降低了意外情況的發(fā)生。
數(shù)據(jù)萬象這套方案接入的成本非常低,在審核過程中應用定制開發(fā)的模型,精準度上非常優(yōu)秀,同時也支持智能調(diào)度,能夠為應用方節(jié)省大量的人力物力成本。
第四步,為推理結(jié)果提供完善的管理服務
我們想要打造一款AI應用產(chǎn)品,弄好了模型之后,有一個非常重要的環(huán)節(jié),就是如何讓用戶最便捷的上手使用起來,而騰訊云企業(yè)網(wǎng)盤本身就擁有強大的應用生態(tài),將這兩者結(jié)合起來,能夠達到事半功倍的效果。
于是,企業(yè)網(wǎng)盤為模型的推理結(jié)果,提供了完善的一攬子管理服務。
我們可以很方便的接入它的一體化辦公生態(tài),與騰訊會議、騰訊電子簽、iDaaS等產(chǎn)品打通;
也可以文件多模態(tài)理解,覆蓋OCR、以圖搜圖、標簽搜索聚類,實現(xiàn)文件智能管理;
還能夠通過文檔協(xié)同編輯、數(shù)據(jù)高效分發(fā)共享、一鍵化企業(yè)知識庫等能力,抓住企業(yè)辦公場景痛點,提升辦公協(xié)作效率。

4.
今天的文章內(nèi)容很硬核,基本上帶大家完整的走了一遍AIGC解決方案,建議大家來回嚼幾遍,重點關注下里面對于業(yè)務痛點,設計了怎樣的解決方案,向業(yè)內(nèi)一流的技術團隊學習,對我們的技術Sense提升非常有幫助。
可以說,作為面向AIGC應用的解決方案,騰訊云存儲做的非常出色,從數(shù)據(jù)處理、模型訓練、推理以及推理結(jié)果的管理與應用,一應俱全,想得到想不到的,他們都給做出來了,忍不住點了個贊。
在AI應用風起云涌的當下,基礎設施能力的完備性顯得尤為重要,在千帆競技中,能夠起到事半功倍、快馬加鞭的效果。
文章中提到的騰訊云存儲AIGC解決方案,也收錄進了新一期《騰訊云工具指南》,堪稱是云存儲的技術寶典,它詳細解讀在AIGC場景下,騰訊云存儲產(chǎn)品通過提供強力的彈性存儲性能、數(shù)據(jù)湖存儲三級加速解決方案,解決了模型訓練數(shù)據(jù)復雜且高要求的痛點,探討如何在企業(yè)級業(yè)務場景中實現(xiàn)安全、高效、成本可控的最優(yōu)解。
對騰訊云存儲AIGC解決方案感興趣的小伙伴,歡迎下載騰訊云工具指南,詳情見下方圖片或原文鏈接~ :https://mktsaas.tencent-cloud.com/web/jumpmini.html?scene=384483723203EB1FECC79F038D17B638&platform=1
