生成式人工智能的構(gòu)建模塊
生成式 AI 基礎(chǔ)設(shè)施堆棧初學(xué)者指南

近十年來(lái),我對(duì)對(duì)話式人工智能的濃厚興趣促使我探索其在提高生產(chǎn)力和應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)方面的潛力。我與他人共同創(chuàng)立了 Humin,這是一個(gè)對(duì)話式人工智能 CRM,后來(lái)被 Tinder 收購(gòu)。此外,我還領(lǐng)導(dǎo)了 Snaps 的技術(shù)合作伙伴關(guān)系,這是一個(gè)客戶服務(wù)對(duì)話式人工智能平臺(tái),已被 Quiq 收購(gòu)。
我一直是對(duì)話式人工智能界面的倡導(dǎo)者,并且撰寫了有關(guān)聊天機(jī)器人、對(duì)話式商務(wù)和對(duì)話式搜索的未來(lái)的文章?,F(xiàn)在讓我興奮的是生成式人工智能的顯著進(jìn)步。它已經(jīng)改變了寫作、編碼、內(nèi)容創(chuàng)作,并在醫(yī)療保健、科學(xué)和法律等領(lǐng)域前景廣闊。
但在技術(shù)和風(fēng)險(xiǎn)投資方面迅速發(fā)展的是基礎(chǔ)組件、生成解決方案的基本組成部分、“鎬和鏟子”。跟上這些進(jìn)步本身就是一個(gè)(有趣的)挑戰(zhàn)。
最近該領(lǐng)域的收購(gòu)也引起了我的注意。就在兩周前,Databricks 以驚人的 13 億美元收購(gòu)了生成式 AI 基礎(chǔ)設(shè)施平臺(tái) MosaicML。
在過(guò)去的幾周里,我花了一些時(shí)間來(lái)了解生成式人工智能基礎(chǔ)設(shè)施的前景。在這篇文章中,我的目標(biāo)是清晰概述關(guān)鍵組成部分、新興趨勢(shì),并重點(diǎn)介紹推動(dòng)創(chuàng)新的早期行業(yè)參與者。我將解釋基礎(chǔ)模型、計(jì)算、框架、計(jì)算、編排和矢量數(shù)據(jù)庫(kù)、微調(diào)、標(biāo)簽、合成數(shù)據(jù)、人工智能可觀測(cè)性和模型安全性。
我的目標(biāo)是以簡(jiǎn)單直接的方式理解和解釋這些概念。此外,我希望能夠利用這些知識(shí)來(lái)進(jìn)行未來(lái)的增長(zhǎng)投資。
在這篇文章的結(jié)尾,我將通過(guò)說(shuō)明兩家公司如何以一致的方式利用基礎(chǔ)設(shè)施堆棧來(lái)連接所有這些概念。
大型語(yǔ)言和基礎(chǔ)模型
讓我們從大型語(yǔ)言模型或法學(xué)碩士開始。簡(jiǎn)而言之,法學(xué)碩士是使用大量文本和代碼(包括書籍、文章、網(wǎng)站和代碼片段)進(jìn)行訓(xùn)練的計(jì)算機(jī)程序。法學(xué)碩士的最終目標(biāo)是真正理解單詞和短語(yǔ)的含義,并擅長(zhǎng)生成新句子。它與深度學(xué)習(xí)結(jié)合起來(lái)實(shí)現(xiàn)這一點(diǎn)。
基礎(chǔ)模型是這些法學(xué)碩士的別稱,發(fā)揮著至關(guān)重要的作用,因?yàn)樗鼈優(yōu)閺V泛的應(yīng)用提供了基礎(chǔ)。在這項(xiàng)研究中,正如其名稱本身所暗示的那樣,我們將把大部分精力集中在這個(gè)基礎(chǔ)方面。
這些模型利用巨大的數(shù)據(jù)集來(lái)學(xué)習(xí)各種任務(wù)。雖然他們偶爾會(huì)犯錯(cuò)誤或表現(xiàn)出偏見,但他們的能力和效率正在不斷提高。
為了將這個(gè)概念變?yōu)楝F(xiàn)實(shí),讓我們考慮一個(gè)實(shí)際的例子。想象一下,您是一名作家,正在為故事尋找新的想法。通過(guò)在模型中輸入幾個(gè)單詞,它可以生成潛在概念的列表。我利用它來(lái)接收有關(guān)本文標(biāo)題的建議。同樣,面對(duì)問(wèn)題的科學(xué)家可以通過(guò)輸入幾個(gè)單詞來(lái)利用基礎(chǔ)模型的力量,從大量數(shù)據(jù)中發(fā)現(xiàn)所需的信息。
基礎(chǔ)模型引發(fā)了人工智能系統(tǒng)開發(fā)的重大轉(zhuǎn)變。它們?yōu)榱奶鞕C(jī)器人和其他人工智能界面提供動(dòng)力,它們的進(jìn)步很大程度上歸功于自監(jiān)督和半監(jiān)督學(xué)習(xí)?,F(xiàn)在,這些術(shù)語(yǔ)的確切含義是什么?
在自我監(jiān)督學(xué)習(xí)中,模型通過(guò)根據(jù)頻率和上下文破譯單詞含義來(lái)從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。另一方面,半監(jiān)督學(xué)習(xí)涉及使用標(biāo)記和未標(biāo)記數(shù)據(jù)的組合來(lái)訓(xùn)練模型。標(biāo)記數(shù)據(jù)是指已將特定信息分配給數(shù)據(jù)的實(shí)例,例如帶有自行車和汽車標(biāo)記圖像的數(shù)據(jù)集。然后,該模型可以使用標(biāo)記圖像區(qū)分兩者,并進(jìn)一步完善對(duì)未標(biāo)記圖像的理解。我很快就會(huì)深入探討微調(diào)的概念。
現(xiàn)在,當(dāng)涉及到在基礎(chǔ)模型之上構(gòu)建應(yīng)用程序時(shí),出現(xiàn)了一個(gè)關(guān)鍵的考慮因素:開發(fā)人員應(yīng)該選擇開源模型還是封閉模型?
開源人工智能模型的底層代碼和架構(gòu)可公開訪問(wèn),任何人都可以免費(fèi)使用、修改和分發(fā)。這種開放性營(yíng)造了一個(gè)協(xié)作環(huán)境,開發(fā)人員和研究人員可以在其中為模型改進(jìn)做出貢獻(xiàn),使其適應(yīng)新的用例,或?qū)⑵浼傻阶约旱捻?xiàng)目中。
另一方面,閉源人工智能模型將其代碼和架構(gòu)保持私有,限制公眾的自由訪問(wèn)。這些模型的使用、修改和分發(fā)通常由開發(fā)它的公司嚴(yán)格控制。此方法旨在保護(hù)知識(shí)產(chǎn)權(quán)、維持質(zhì)量控制并確保負(fù)責(zé)任的使用。盡管外部開發(fā)人員和研究人員無(wú)法直接為模型改進(jìn)或調(diào)整做出貢獻(xiàn),但他們通常可以通過(guò)擁有模型的實(shí)體提供的預(yù)定義接口或 API 與模型進(jìn)行交互。
在開放模型和封閉模型之間進(jìn)行選擇可能會(huì)帶來(lái)挑戰(zhàn)。選擇開源解決方案意味著承擔(dān)管理基礎(chǔ)設(shè)施需求的責(zé)任,例如處理能力、數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)安全,這些需求通常由封閉模型提供商提供。
在撰寫本文的過(guò)程中,我想了解這些模型的獨(dú)特優(yōu)勢(shì)和賣點(diǎn)。最重要的是,我向該領(lǐng)域的建設(shè)者尋求見解。
雖然我遇到的觀點(diǎn)可能有所不同,但在選擇基本模型時(shí)出現(xiàn)了一些關(guān)鍵主題:應(yīng)用程序所需的精度、開發(fā)人員團(tuán)隊(duì)處理自己的基礎(chǔ)設(shè)施的準(zhǔn)備程度,以及如果沒有進(jìn)行足夠的探索,則傾向于堅(jiān)持熟悉的內(nèi)容。沒有進(jìn)行過(guò)。
首先,準(zhǔn)確性至關(guān)重要。根據(jù)模型需要完成的任務(wù),錯(cuò)誤的容忍度可能會(huì)有所不同。例如,銷售聊天機(jī)器人可以處理偶爾出現(xiàn)的錯(cuò)誤,使其適合在現(xiàn)有基礎(chǔ)模型的基礎(chǔ)上構(gòu)建。然而,考慮一下自動(dòng)駕駛汽車的情況,其中的錯(cuò)誤可能會(huì)帶來(lái)災(zāi)難性的后果。
其次,云托管發(fā)揮著重要作用。對(duì)于旨在維持精益運(yùn)營(yíng)的敏捷初創(chuàng)公司來(lái)說(shuō),處理計(jì)算能力、數(shù)據(jù)存儲(chǔ)和技術(shù)復(fù)雜性可能會(huì)分散他們對(duì)核心目標(biāo)的注意力。這就是為什么許多初創(chuàng)公司選擇在 Chat-GPT 等現(xiàn)成的閉源平臺(tái)之上進(jìn)行構(gòu)建。另一方面,在基礎(chǔ)設(shè)施管理方面擁有內(nèi)部專業(yè)知識(shí)的大公司可能會(huì)傾向于開源路線,以保留對(duì)各個(gè)方面的控制并更深入地了解系統(tǒng)的結(jié)果。
最后,業(yè)務(wù)目標(biāo)發(fā)揮影響力。不同的公司有不同的議程,這可能會(huì)影響決策過(guò)程。例如,Zoom 投資并利用了 Anthropic,這是一種針對(duì)企業(yè)用例和安全性量身定制的模型。雖然 Anthropic 可能不具備比 OpenAI 更優(yōu)秀的系統(tǒng),但 Zoom 可能希望避免其數(shù)據(jù)被與 Teams 競(jìng)爭(zhēng)的 OpenAI/微軟使用的風(fēng)險(xiǎn)。這些戰(zhàn)略考慮因素在確定合作伙伴公司選擇構(gòu)建其系統(tǒng)時(shí)發(fā)揮著重要作用。
大型語(yǔ)言模型 (LLM) 的前景不斷擴(kuò)大。這里有一些領(lǐng)先的模型,例如 OpenAI 的 GPT4 和 DALL-E、Cohere、Anthropic 的 Claude、Meta AI 的 LLaMA、StabilityAI、MosaicML 和 Inflection AI。
OpenAI 是人工智能行業(yè)的基石,以其在 GPT4 和 DALL-E 方面的進(jìn)步而聞名。ChatGPT 是一種閉源模型,具有令人印象深刻的對(duì)話式 AI 界面,使機(jī)器人能夠與人進(jìn)行復(fù)雜的對(duì)話,而 DALL-E 可以根據(jù)文本描述生成獨(dú)特的圖像。
MosaicML 是一家開源人工智能初創(chuàng)公司,開發(fā)了一個(gè)用于訓(xùn)練大型語(yǔ)言模型和部署生成式人工智能工具的平臺(tái)。最近被 Databricks 收購(gòu)的 MosaicML 獨(dú)特的開源方法將繼續(xù)幫助組織創(chuàng)建自己的語(yǔ)言模型。
Meta AI對(duì)AI領(lǐng)域的貢獻(xiàn)LLaMA是一個(gè)開源模型。通過(guò)鼓勵(lì)其他研究人員使用 LLaMA,F(xiàn)acebook 旨在促進(jìn)新應(yīng)用程序的開發(fā)并提高語(yǔ)言模型的準(zhǔn)確性。
StabilityAI 以 Dance Diffusion 和 Stable Diffusion 等系統(tǒng)而聞名,是開源音樂和圖像生成系統(tǒng)的領(lǐng)導(dǎo)者。他們的目標(biāo)是激發(fā)全球創(chuàng)造力。該公司還擁有 MedARC,這是醫(yī)療人工智能貢獻(xiàn)的基礎(chǔ)模型。
Anthropic 是一家由 OpenAI 資深人士共同創(chuàng)立的閉源公司,它創(chuàng)建了 Claude,一種安全且功能強(qiáng)大的語(yǔ)言模型。Claude 作為處理數(shù)據(jù)的新模型脫穎而出,為負(fù)責(zé)任的人工智能樹立了早期基準(zhǔn)。
Inflection 是一家資金雄厚的人工智能基礎(chǔ)模型初創(chuàng)公司,其大膽的愿景是為每個(gè)人打造“個(gè)人人工智能”,最近其強(qiáng)大的語(yǔ)言模型為 Pi 對(duì)話代理提供了動(dòng)力。該公司得到了微軟、里德霍夫曼、比爾蓋茨、埃里克施密特和英偉達(dá)的支持。
最后,加拿大初創(chuàng)公司 Cohere 提供了專為企業(yè)使用而設(shè)計(jì)的可靠且可擴(kuò)展的大型語(yǔ)言模型。他們的模型滿足企業(yè)的特定要求,確??煽啃院涂蓴U(kuò)展性。
半導(dǎo)體、芯片、云托管、推理、部署
生成式人工智能模型依賴強(qiáng)大的計(jì)算資源來(lái)訓(xùn)練和生成輸出。
雖然我從基礎(chǔ)模型開始,GPU 和 TPU(專用芯片)以及云托管確實(shí)構(gòu)成了生成式 AI 基礎(chǔ)設(shè)施堆棧的基礎(chǔ)。
計(jì)算是處理數(shù)據(jù)(并執(zhí)行計(jì)算)的能力,在人工智能系統(tǒng)中發(fā)揮著至關(guān)重要的作用。GPU、CPU 和 TPU 是不同類型的計(jì)算。生成式人工智能堆棧中最重要的是 GPU,它最初是為圖形任務(wù)而設(shè)計(jì)的,但在計(jì)算密集型操作(例如生成式人工智能的訓(xùn)練網(wǎng)絡(luò))方面表現(xiàn)出色。GPU 針對(duì)并行計(jì)算處理進(jìn)行了優(yōu)化,這意味著將大型任務(wù)分解為可由多個(gè)處理器同時(shí)處理的較小任務(wù)。AI/ML 任務(wù)是高度可并行化的工作負(fù)載,因此 GPU 才有意義。
生成式人工智能需要大量的計(jì)算資源和大型數(shù)據(jù)集,這些資源在高性能數(shù)據(jù)中心進(jìn)行處理和存儲(chǔ)。AWS、Microsoft Azure 和 Google Cloud 等云平臺(tái)提供可擴(kuò)展的資源和 GPU,用于訓(xùn)練和部署生成式 AI 模型。
GPU 領(lǐng)導(dǎo)者 Nvidia 的市值最近突破了 1 萬(wàn)億美元,像 d-Matrix 這樣的新進(jìn)入者正在進(jìn)入該領(lǐng)域,推出用于生成 AI 的高性能芯片,以幫助推理,即使用訓(xùn)練有素的生成模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)的過(guò)程。d-Matrix 正在構(gòu)建一款新的推理芯片,與當(dāng)前的計(jì)算加速器相比,使用數(shù)字內(nèi)存計(jì)算 (DIMC) 技術(shù)可顯著降低每個(gè)令牌的延遲。d-Matrix 認(rèn)為,解決內(nèi)存計(jì)算集成問(wèn)題是提高 AI 計(jì)算效率的關(guān)鍵,從而以高效且經(jīng)濟(jì)高效的方式處理推理應(yīng)用程序的爆炸式增長(zhǎng)。
Lambda Labs 幫助企業(yè)按需部署人工智能模型。Lambda 為電力工程師提供工作站、服務(wù)器、筆記本電腦和云服務(wù)。最近,Lambda 推出了 GPU Cloud,這是一項(xiàng)專門用于深度學(xué)習(xí)的 GPU 云服務(wù)。
CoreWeave 是一家專注于大規(guī)模高度并行化工作負(fù)載的專業(yè)云服務(wù)提供商。該公司已獲得 Nvidia 和 GitHub 創(chuàng)始人的資助。其客戶包括 Stability AI 等生成式人工智能公司,并支持開源人工智能和機(jī)器學(xué)習(xí)項(xiàng)目。
此外,還有專門的公司致力于支持生成式人工智能。HuggingFace本質(zhì)上是法學(xué)碩士的GitHub,通過(guò)名為Hub的協(xié)作平臺(tái)提供全面的AI計(jì)算資源,促進(jìn)模型在主要云平臺(tái)上的共享和部署。
有趣的是,云提供商正在與關(guān)鍵的基礎(chǔ)模型參與者保持一致;微軟在 OpenAI 上投入了資源和大量資金,谷歌投資了 Anthropic 并補(bǔ)充了其 Google Brain 計(jì)劃,亞馬遜則與 HuggingFace 結(jié)盟。結(jié)論是,對(duì)于可能想要使用特定基礎(chǔ)模型之一的公司來(lái)說(shuō),AWS 之前基于信用和創(chuàng)新的主導(dǎo)地位不再是默認(rèn)選項(xiàng)。
編排層/應(yīng)用程序框架
該堆棧的下一級(jí)是應(yīng)用程序框架,可促進(jìn)人工智能模型與不同數(shù)據(jù)源的無(wú)縫集成,使開發(fā)人員能夠快速啟動(dòng)應(yīng)用程序。
應(yīng)用程序框架的關(guān)鍵要點(diǎn)是它們加快了生成式人工智能模型的原型設(shè)計(jì)和使用。
這里最著名的公司是 LangChain,它最初是一個(gè)開源項(xiàng)目,后來(lái)發(fā)展成為一家真正的初創(chuàng)公司。他們引入了一個(gè)開源框架,專門用于簡(jiǎn)化使用法學(xué)碩士的應(yīng)用程序開發(fā)。該框架的核心概念圍繞著將各種組件“鏈接”在一起以創(chuàng)建聊天機(jī)器人、生成問(wèn)答(GQA)和摘要的概念。
我與創(chuàng)始人兼首席執(zhí)行官哈里森·蔡斯取得了聯(lián)系。他說(shuō):“浪鏈提供了兩大附加值。第一個(gè)是抽象的集合,每個(gè)抽象代表構(gòu)建復(fù)雜的 LLM 應(yīng)用程序所需的不同模塊。這些模塊為該模塊內(nèi)的所有集成/實(shí)現(xiàn)提供了標(biāo)準(zhǔn)接口,從而可以通過(guò)一行代碼輕松切換提供程序。這有助于團(tuán)隊(duì)快速試驗(yàn)不同的模型提供商(OpenAI 與 Anthropic)、向量庫(kù)(Pinecone 與 Chroma)、嵌入模型(OpenAI 與 Cohere)等。第二大附加值是在鏈中——執(zhí)行更復(fù)雜的 LLM 調(diào)用序列以啟用 RAG、摘要等的常見方法?!?/p>
另一個(gè)參與者是 Fixie AI,由蘋果和谷歌的前工程負(fù)責(zé)人創(chuàng)立。Fixie AI 旨在在 OpenAI 的 ChatGPT 等文本生成模型與企業(yè)級(jí)數(shù)據(jù)、系統(tǒng)和工作流程之間建立連接。例如,公司可以利用 Fixie AI 將語(yǔ)言模型功能合并到客戶支持工作流程中,客服人員可以在其中處理客戶票證、自動(dòng)檢索相關(guān)購(gòu)買信息、根據(jù)需要發(fā)放退款以及生成票證草稿回復(fù)。
矢量數(shù)據(jù)庫(kù)
堆棧的下一個(gè)級(jí)別是矢量數(shù)據(jù)庫(kù),它是一種特殊類型的數(shù)據(jù)庫(kù),以有助于查找相似數(shù)據(jù)的方式存儲(chǔ)數(shù)據(jù)。它通過(guò)將每條數(shù)據(jù)表示為數(shù)字列表(稱為向量)來(lái)實(shí)現(xiàn)此目的。
向量中的這些數(shù)字對(duì)應(yīng)于數(shù)據(jù)的特征或?qū)傩?。例如,如果我們處理圖像,向量中的數(shù)字可能代表圖像的顏色、形狀和亮度。在向量數(shù)據(jù)庫(kù)中,需要掌握的一個(gè)重要術(shù)語(yǔ)是嵌入。嵌入是一種數(shù)據(jù)表示形式,它封裝了對(duì)于人工智能獲得理解和維持長(zhǎng)期記憶至關(guān)重要的語(yǔ)義信息,這對(duì)于執(zhí)行復(fù)雜任務(wù)至關(guān)重要。嵌入是一種數(shù)據(jù)表示形式,它封裝了對(duì)于人工智能獲得理解和維持長(zhǎng)期記憶至關(guān)重要的語(yǔ)義信息,這對(duì)于執(zhí)行復(fù)雜任務(wù)至關(guān)重要。
這是一個(gè)具體的例子。自行車的圖片可以有效地轉(zhuǎn)換為一系列數(shù)值,包括尺寸、車輪顏色、車架顏色和車把顏色等特征。這些數(shù)字表示有利于無(wú)縫存儲(chǔ)和分析,比單純的圖像具有優(yōu)勢(shì)。結(jié)論是矢量數(shù)據(jù)庫(kù)具有以機(jī)器易于理解的方式處理和存儲(chǔ)數(shù)據(jù)的能力。
這些數(shù)據(jù)庫(kù)可以概念化為具有無(wú)限列的表。
在我之前構(gòu)建對(duì)話式人工智能的經(jīng)驗(yàn)中,我主要使用在表中存儲(chǔ)數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)。然而,矢量數(shù)據(jù)庫(kù)擅長(zhǎng)表示數(shù)據(jù)的語(yǔ)義,支持相似性搜索、推薦和分類等任務(wù)。
幾家公司開發(fā)了矢量數(shù)據(jù)庫(kù)和嵌入。
Pinecone 是該品類的創(chuàng)造者。他們擁有專為大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用程序設(shè)計(jì)的分布式矢量數(shù)據(jù)庫(kù)。除了生成式 AI 公司之外,它還擁有 Shopify、Gong、Zapier 和 Hubspot 等客戶,提供具有 SOC 2 Type II 認(rèn)證和 GDPR 就緒性的企業(yè)級(jí)解決方案。GDPR 合規(guī)性很重要,因?yàn)槿绻_發(fā)人員必須刪除記錄,在數(shù)據(jù)庫(kù)中執(zhí)行起來(lái)并不難,但由于模型的結(jié)構(gòu)方式,從模型中刪除不良數(shù)據(jù)要困難得多。松果還有助于記憶聊天體驗(yàn)。
另一個(gè)值得注意的矢量數(shù)據(jù)庫(kù)是 Chroma,它是一個(gè)專注于高性能相似性搜索的新開源解決方案。Chroma 使開發(fā)人員能夠向其支持 AI 的應(yīng)用程序添加狀態(tài)和內(nèi)存。許多開發(fā)人員表達(dá)了對(duì)像“ChatGPT 但針對(duì)他們的數(shù)據(jù)”這樣的 AI 工具的渴望,而 Chroma 通過(guò)實(shí)現(xiàn)基于嵌入的文檔檢索來(lái)充當(dāng)橋梁。自推出以來(lái),Chroma 已獲得超過(guò) 35,000 次 Python 下載。此外,它的開源符合讓人工智能更安全、更一致的目標(biāo)。
Weaviate 是一個(gè)開源矢量數(shù)據(jù)庫(kù),非常適合尋求靈活性的公司。它與其他模型中心兼容,例如 OpenAI 或 HuggingFace。
微調(diào)
基礎(chǔ)設(shè)施堆棧的下一層是微調(diào)。在生成人工智能領(lǐng)域,微調(diào)涉及針對(duì)特定任務(wù)或數(shù)據(jù)集進(jìn)一步訓(xùn)練模型。此過(guò)程增強(qiáng)了模型的性能并對(duì)其進(jìn)行調(diào)整以滿足該任務(wù)或數(shù)據(jù)集的獨(dú)特要求。這就像多才多藝的運(yùn)動(dòng)員如何專注于特定的運(yùn)動(dòng)以在其中取得優(yōu)異成績(jī)一樣;基礎(chǔ)廣泛的人工智能還可以通過(guò)微調(diào)將其知識(shí)集中在特定任務(wù)上。
開發(fā)人員在現(xiàn)有模型之上構(gòu)建新的應(yīng)用程序。雖然在海量數(shù)據(jù)集上訓(xùn)練的語(yǔ)言模型可以生成語(yǔ)法正確且流暢的文本,但它們?cè)卺t(yī)學(xué)或法律等某些領(lǐng)域可能缺乏精確性。在特定領(lǐng)域的數(shù)據(jù)集上微調(diào)模型,使其能夠內(nèi)化這些領(lǐng)域的獨(dú)特特征,從而增強(qiáng)其生成相關(guān)文本的能力。
這與之前關(guān)于作為其他服務(wù)和產(chǎn)品平臺(tái)的基礎(chǔ)模型的觀點(diǎn)是一致的。微調(diào)這些模型的能力是其適應(yīng)性的關(guān)鍵因素。微調(diào)現(xiàn)有模型可以簡(jiǎn)化流程并且具有成本效益,而不是從頭開始(這需要大量的計(jì)算能力和大量數(shù)據(jù)),尤其是在您已經(jīng)擁有大型特定數(shù)據(jù)集的情況下。
該領(lǐng)域的一家著名公司是 Weights and Bias。
標(biāo)簽
準(zhǔn)確的數(shù)據(jù)標(biāo)記對(duì)于生成人工智能模型的成功至關(guān)重要。
數(shù)據(jù)可以采取多種形式,包括圖像、文本或音頻。標(biāo)簽用作數(shù)據(jù)的描述。例如,自行車的圖像可以標(biāo)記為“自行車”或“自行車”。機(jī)器學(xué)習(xí)的一個(gè)比較繁瑣的方面是提供一組標(biāo)簽來(lái)教導(dǎo)機(jī)器學(xué)習(xí)模型它需要知道什么。
數(shù)據(jù)標(biāo)記在機(jī)器學(xué)習(xí)中發(fā)揮著重要作用,因?yàn)樗惴◤臄?shù)據(jù)中學(xué)習(xí)。標(biāo)簽的準(zhǔn)確性直接影響算法的學(xué)習(xí)能力。每個(gè)人工智能初創(chuàng)公司或企業(yè)研發(fā)實(shí)驗(yàn)室都面臨著注釋訓(xùn)練數(shù)據(jù)以教導(dǎo)算法識(shí)別什么的挑戰(zhàn)。無(wú)論是醫(yī)生通過(guò)掃描評(píng)估癌癥的大小,還是司機(jī)在自動(dòng)駕駛汽車錄像中標(biāo)記街道標(biāo)志,貼標(biāo)簽都是必要的步驟。
不準(zhǔn)確的數(shù)據(jù)會(huì)導(dǎo)致模型結(jié)果不準(zhǔn)確。
數(shù)據(jù)標(biāo)簽仍然是許多行業(yè)機(jī)器學(xué)習(xí)和人工智能進(jìn)步的重大挑戰(zhàn)和障礙。對(duì)于學(xué)科專家來(lái)說(shuō),為此分配時(shí)間成本高昂、勞動(dòng)密集型且具有挑戰(zhàn)性,導(dǎo)致一些人在隱私和專業(yè)知識(shí)限制最小的情況下轉(zhuǎn)向眾包平臺(tái)。它通常被視為“清潔”工作,盡管數(shù)據(jù)最終控制著模型的行為和質(zhì)量。在大多數(shù)模型架構(gòu)都是開源的世界中,私有的、領(lǐng)域相關(guān)的數(shù)據(jù)是構(gòu)建人工智能護(hù)城河的最強(qiáng)大的方法之一。
Snorkel AI 是一家加快標(biāo)簽流程的公司。該公司的技術(shù)最初是斯坦福人工智能實(shí)驗(yàn)室的一項(xiàng)研究計(jì)劃,旨在克服人工智能的標(biāo)簽瓶頸。Snorkel 的平臺(tái)幫助主題專家以編程方式(通過(guò)一種稱為“弱監(jiān)督”的技術(shù))而不是手動(dòng)(逐一)標(biāo)記數(shù)據(jù),讓人類參與其中,同時(shí)顯著提高標(biāo)記效率。這可以將流程從幾個(gè)月縮短到幾小時(shí)或幾天,具體取決于數(shù)據(jù)的復(fù)雜性,并且從長(zhǎng)遠(yuǎn)來(lái)看使模型更易于維護(hù),因?yàn)殡S著數(shù)據(jù)漂移、發(fā)現(xiàn)新的錯(cuò)誤模式或業(yè)務(wù),可以輕松地重新訪問(wèn)和更新訓(xùn)練標(biāo)簽。目標(biāo)發(fā)生變化。
Snorkel AI 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Alex Ratner 表示:“在預(yù)訓(xùn)練和微調(diào)等每項(xiàng)以模型為中心的操作背后,都是更重要的以數(shù)據(jù)為中心的操作,這些操作創(chuàng)建模型實(shí)際學(xué)習(xí)的數(shù)據(jù)?!?“我們的目標(biāo)是讓以數(shù)據(jù)為中心的人工智能開發(fā)不再像手動(dòng)、臨時(shí)工作,而更像軟件開發(fā),以便每個(gè)組織都可以開發(fā)和維護(hù)適用于其企業(yè)特定數(shù)據(jù)和用例的模型?!?Snorkel 以數(shù)據(jù)為中心的平臺(tái)還有助于系統(tǒng)地識(shí)別模型錯(cuò)誤,以便標(biāo)記工作可以集中在最有影響力的數(shù)據(jù)片段上。如今,財(cái)富 500 強(qiáng)公司在金融、電子商務(wù)、保險(xiǎn)、電信和醫(yī)藥等數(shù)據(jù)密集型行業(yè)中使用它。
Labelbox 是一家領(lǐng)先的人工智能標(biāo)簽公司。我與首席執(zhí)行官 Manu Sharma 進(jìn)行了交談。Labelbox 幫助 OpenAI、沃爾瑪、Stryker 和 Google 等公司標(biāo)記數(shù)據(jù)并管理流程?!癓abelbox 使基礎(chǔ)模型在企業(yè)環(huán)境中變得有用”。開發(fā)人員使用 Labelbox 的模型輔助標(biāo)記快速將模型預(yù)測(cè)轉(zhuǎn)化為用于生成 AI 用例的新的自動(dòng)標(biāo)記訓(xùn)練數(shù)據(jù)。
其他公司專門開發(fā)用于執(zhí)行手動(dòng)注釋的界面和勞動(dòng)力。其中之一是規(guī)模,重點(diǎn)關(guān)注政府機(jī)構(gòu)和企業(yè)。該公司提供視覺數(shù)據(jù)標(biāo)記平臺(tái),結(jié)合軟件和人類專業(yè)知識(shí),為開發(fā)機(jī)器學(xué)習(xí)算法的公司標(biāo)記圖像、文本、語(yǔ)音和視頻數(shù)據(jù)。Scale 雇傭了數(shù)以萬(wàn)計(jì)的承包商來(lái)進(jìn)行數(shù)據(jù)標(biāo)記。他們最初向自動(dòng)駕駛汽車公司提供標(biāo)記數(shù)據(jù),并將其客戶群擴(kuò)展到政府、電子商務(wù)、企業(yè)自動(dòng)化和機(jī)器人領(lǐng)域。客戶包括 Airbnb、OpenAI、DoorDash 和 Pinterest。
綜合數(shù)據(jù)
合成數(shù)據(jù),也稱為模仿真實(shí)數(shù)據(jù)的人工創(chuàng)建的數(shù)據(jù),在機(jī)器學(xué)習(xí)和人工智能 (AI) 領(lǐng)域提供了多種好處和應(yīng)用。那么,為什么要考慮使用合成數(shù)據(jù)呢?
當(dāng)真實(shí)數(shù)據(jù)不可用或無(wú)法利用時(shí),就會(huì)出現(xiàn)合成數(shù)據(jù)的一個(gè)主要用例。通過(guò)生成與真實(shí)數(shù)據(jù)具有相同特征的人工數(shù)據(jù)集,您可以開發(fā)和測(cè)試 AI 模型,而不會(huì)損害隱私或遇到數(shù)據(jù)限制。
使用合成數(shù)據(jù)有很多優(yōu)點(diǎn)。
合成數(shù)據(jù)可以保護(hù)隱私,因?yàn)樗狈€(gè)人身份信息 (PII) 和 HIPAA 風(fēng)險(xiǎn)。在有效利用數(shù)據(jù)的同時(shí),確保遵守 GDPR 等數(shù)據(jù)法規(guī)。它通過(guò)生成用于訓(xùn)練和部署的數(shù)據(jù)來(lái)實(shí)現(xiàn)可擴(kuò)展的機(jī)器學(xué)習(xí)和人工智能應(yīng)用程序。合成數(shù)據(jù)增強(qiáng)了多樣性,通過(guò)代表不同的人群和場(chǎng)景來(lái)最大限度地減少偏見,并促進(jìn)人工智能模型的公平性和包容性?!皸l件數(shù)據(jù)生成”技術(shù)和合成數(shù)據(jù)還可以解決沒有足夠數(shù)據(jù)來(lái)測(cè)試和訓(xùn)練模型的初創(chuàng)公司的“冷啟動(dòng)”問(wèn)題。公司將需要合成專有數(shù)據(jù)集,然后使用條件數(shù)據(jù)生成技術(shù)對(duì)其進(jìn)行增強(qiáng),以填補(bǔ)他們無(wú)法在野外收集的邊緣情況;這有時(shí)被稱為模型訓(xùn)練的“最后一英里”。
當(dāng)談到合成數(shù)據(jù)解決方案時(shí),有幾家公司提供了可靠的選擇。Gretel.ai、Tonic.ai 和 Mostly.ai 是該領(lǐng)域值得注意的例子。
Gretel.ai 允許工程師根據(jù)真實(shí)數(shù)據(jù)集生成人工數(shù)據(jù)集。Gretel 結(jié)合了生成模型、隱私增強(qiáng)技術(shù)以及數(shù)據(jù)指標(biāo)和報(bào)告,使企業(yè)開發(fā)人員和工程師能夠按需創(chuàng)建準(zhǔn)確且安全的特定領(lǐng)域的合成數(shù)據(jù)。所有三位創(chuàng)始人都擁有網(wǎng)絡(luò)安全背景,并曾在美國(guó)情報(bào)界擔(dān)任過(guò)各種職務(wù),他們的首席技術(shù)官是空軍的一名入伍軍官。
例如,Tonic.ai 將其數(shù)據(jù)宣傳為“真實(shí)的虛假數(shù)據(jù)”,強(qiáng)調(diào)合成數(shù)據(jù)需要尊重和保護(hù)真實(shí)數(shù)據(jù)的隱私。他們的解決方案適用于軟件測(cè)試、機(jī)器學(xué)習(xí)模型訓(xùn)練、數(shù)據(jù)分析和銷售演示。
模型監(jiān)督/AI可觀測(cè)性
該堆棧的下一個(gè)級(jí)別是人工智能可觀察性,它涉及監(jiān)視、理解和解釋人工智能模型的行為。簡(jiǎn)而言之,它確保人工智能模型正常運(yùn)行并做出公正、無(wú)害的決策。
模型監(jiān)督是人工智能可觀察性的一個(gè)子集,專門致力于確保人工智能模型符合其預(yù)期目的。它涉及驗(yàn)證模型是否沒有做出可能有害或不道德的決策。
數(shù)據(jù)漂移是另一個(gè)需要考慮的重要概念。它指的是數(shù)據(jù)分布隨時(shí)間的變化,這可能導(dǎo)致人工智能模型變得不太準(zhǔn)確。如果這些變化有利于某些群體,模型可能會(huì)變得更加有偏見并導(dǎo)致不公平的決策。隨著數(shù)據(jù)分布的變化,模型的準(zhǔn)確性會(huì)降低,可能導(dǎo)致錯(cuò)誤的預(yù)測(cè)和決策。人工智能可觀測(cè)平臺(tái)提供了應(yīng)對(duì)這些挑戰(zhàn)的解決方案。
為了闡明人工智能可觀察性的需求,我聯(lián)系了 Krishna Gade 和 Fiddler.ai 的首席執(zhí)行官兼首席運(yùn)營(yíng)官 Amit Paka。Gade 此前曾擔(dān)任 Facebook News Feed 的工程負(fù)責(zé)人,親眼目睹了企業(yè)在理解自己的機(jī)器學(xué)習(xí)模型方面面臨的挑戰(zhàn)。
“隨著這些系統(tǒng)變得更加成熟和復(fù)雜,理解它們的運(yùn)作方式變得極其困難。諸如“為什么我會(huì)在我的動(dòng)態(tài)中看到這個(gè)故事?”之類的問(wèn)題?為什么這個(gè)新聞故事會(huì)瘋傳?這個(gè)消息是真的還是假的?很難回答。”?Gade 和他的團(tuán)隊(duì)在 Fiddler 開發(fā)了一個(gè)平臺(tái)來(lái)解決這些問(wèn)題,提高 Facebook 模型的透明度,并解決“AI 黑匣子”問(wèn)題?,F(xiàn)在,Krishna 和 Amit Paka 推出了 Fiddler 平臺(tái),幫助 Thumbtack 甚至 In-Q-Tel(CIA 風(fēng)險(xiǎn)基金)等公司提供模型可解釋性、現(xiàn)代監(jiān)控和偏差檢測(cè),為企業(yè)提供集中管理這些信息和信息的方式。構(gòu)建下一代人工智能。Amit 與我分享道:“AI 可觀察性對(duì)于安全和負(fù)責(zé)任的 AI 部署變得非常重要?,F(xiàn)在它已經(jīng)成為每個(gè)推出人工智能產(chǎn)品的公司的必備品。我們認(rèn)為,如果沒有人工智能可觀察性,我們就不會(huì)有企業(yè)采用人工智能,而人工智能可觀察性正在形成人工智能堆棧中關(guān)鍵的第三層?!?/p>
Arize 和 WhyLabs 是其他為生產(chǎn)中的法學(xué)碩士創(chuàng)建了強(qiáng)大的可觀察性解決方案的公司。這些平臺(tái)解決了添加護(hù)欄的問(wèn)題,以確保實(shí)時(shí)為 LLM 申請(qǐng)?zhí)峁┻m當(dāng)?shù)奶崾竞晚憫?yīng)。這些工具可以識(shí)別并減輕任何 LLM 模型中的惡意提示、敏感數(shù)據(jù)、有毒反應(yīng)、有問(wèn)題的主題、幻覺和越獄嘗試。
Aporia 是另一家強(qiáng)調(diào)人工智能可觀察平臺(tái)重要性的公司,它認(rèn)識(shí)到信任可能在幾秒鐘內(nèi)失去,并需要幾個(gè)月的時(shí)間才能恢復(fù)。Aporia 專注于客戶終身價(jià)值/動(dòng)態(tài)定價(jià),目前正在利用其 LLM 可觀察性功能深入研究生成式 AI。
模型安全
堆棧的頂部是模型安全。生成式人工智能的一項(xiàng)重大風(fēng)險(xiǎn)是輸出存在偏差。人工智能模型傾向于采用和傳播訓(xùn)練數(shù)據(jù)中存在的偏差。例如,人工智能簡(jiǎn)歷篩選工具偏愛名字為“Jared”且有高中長(zhǎng)曲棍球經(jīng)歷的候選人,這揭示了數(shù)據(jù)集中的偏見。亞馬遜也面臨著類似的挑戰(zhàn),由于培訓(xùn)數(shù)據(jù)主要由男性員工組成,他們的人工智能簡(jiǎn)歷篩選工具表現(xiàn)出對(duì)男性候選人的內(nèi)在偏見。
另一個(gè)擔(dān)憂是人工智能的惡意使用。深度造假涉及通過(guò)可信但捏造的圖像、視頻或文本傳播虛假信息,可能會(huì)成為一個(gè)問(wèn)題。最近發(fā)生的一起事件涉及人工智能生成的五角大樓爆炸圖像,引起公眾的恐懼和困惑。這凸顯了人工智能被錯(cuò)誤信息武器化的可能性,以及需要采取保障措施來(lái)防止此類濫用。
此外,隨著人工智能系統(tǒng)的復(fù)雜性和自主性的增長(zhǎng),可能會(huì)出現(xiàn)意想不到的后果。這些系統(tǒng)可能會(huì)表現(xiàn)出開發(fā)人員未預(yù)料到的行為,從而帶來(lái)風(fēng)險(xiǎn)或?qū)е虏涣冀Y(jié)果。例如,F(xiàn)acebook 開發(fā)的聊天機(jī)器人開始發(fā)明自己的語(yǔ)言來(lái)更有效地進(jìn)行交流,這是一個(gè)意想不到的結(jié)果,強(qiáng)調(diào)了嚴(yán)格監(jiān)控和安全預(yù)防措施的必要性。
為了減輕這些風(fēng)險(xiǎn),偏差檢測(cè)和緩解等技術(shù)至關(guān)重要。這涉及識(shí)別模型輸出中的偏差并采取措施將其最小化,例如提高訓(xùn)練數(shù)據(jù)多樣性和應(yīng)用公平技術(shù)。用戶反饋機(jī)制(用戶可以標(biāo)記有問(wèn)題的輸出)在完善人工智能模型方面發(fā)揮著至關(guān)重要的作用。對(duì)抗性測(cè)試和驗(yàn)證通過(guò)困難的輸入來(lái)挑戰(zhàn)人工智能系統(tǒng),以發(fā)現(xiàn)弱點(diǎn)和盲點(diǎn)。
強(qiáng)大的智能可幫助企業(yè)對(duì)其人工智能模型進(jìn)行壓力測(cè)試,以避免失敗。Robust Intelligence 的主要產(chǎn)品是人工智能防火墻,通過(guò)持續(xù)的壓力測(cè)試來(lái)保護(hù)公司人工智能模型免受錯(cuò)誤的影響。有趣的是,這個(gè)人工智能防火墻本身就是一個(gè)人工智能模型,其任務(wù)是預(yù)測(cè)數(shù)據(jù)點(diǎn)是否會(huì)導(dǎo)致錯(cuò)誤的預(yù)測(cè)。
Arthur AI 于 2019 年首次亮相,其主要目標(biāo)是通過(guò)提供類似于 Robust Intelligence 解決方案的 LLM 防火墻來(lái)幫助企業(yè)監(jiān)控其機(jī)器學(xué)習(xí)模型。該解決方案監(jiān)控并增強(qiáng)模型精度和可解釋性。
CredoAI 指導(dǎo)企業(yè)了解人工智能的道德影響。他們的重點(diǎn)在于人工智能治理,使企業(yè)能夠大規(guī)模衡量、監(jiān)控和管理人工智能產(chǎn)生的風(fēng)險(xiǎn)。
最后,Skyflow 提供基于 API 的服務(wù),用于安全存儲(chǔ)敏感和個(gè)人身份信息。Skyflow 的重點(diǎn)是滿足金融科技和醫(yī)療保健等各個(gè)領(lǐng)域的需求,幫助安全存儲(chǔ)信用卡詳細(xì)信息等關(guān)鍵信息。
這一切如何結(jié)合在一起?
為了更深入地了解使用這些工具的領(lǐng)先公司,我采訪了Science 首席執(zhí)行官 Will Manidis。io。ScienceIO 通過(guò)構(gòu)建專為醫(yī)療保健打造的最先進(jìn)的基礎(chǔ)模型,正在徹底改變醫(yī)療保健行業(yè)。數(shù)百家最重要的醫(yī)療保健組織在其工作流程的核心使用 ScienceIO 模型,這使 Will 對(duì)如何在生產(chǎn)中部署法學(xué)碩士有獨(dú)特的見解。這是他所看到的:
計(jì)算:ScienceIO 依靠 Lambda Labs 利用本地集群來(lái)滿足其計(jì)算需求。這確保了高效且可擴(kuò)展的處理能力,比 AWS 或 GCP 等超大規(guī)模服務(wù)更具成本效益。
基礎(chǔ)模型:ScienceIO 利用其內(nèi)部數(shù)據(jù)創(chuàng)建自己的基礎(chǔ)模型。他們業(yè)務(wù)的核心是 API,該 API 有助于將非結(jié)構(gòu)化醫(yī)療數(shù)據(jù)實(shí)時(shí)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)(命名實(shí)體解析和鏈接),然后可用于搜索和分析目的。他們的許多客戶選擇在其工作流程中將 ScienceIO 與更通用的模型鏈接起來(lái),以執(zhí)行信息檢索和合成等任務(wù)。
Vector:ScienceIO 的核心產(chǎn)品之一是嵌入產(chǎn)品,專為醫(yī)療保健領(lǐng)域的高質(zhì)量嵌入而構(gòu)建。Will 的核心信念之一是自定義嵌入將變得越來(lái)越重要,特別是作為通用模型的補(bǔ)充。ScienceIO 廣泛使用 Chroma 來(lái)存儲(chǔ)和查詢這些向量嵌入。
編排:對(duì)于應(yīng)用程序開發(fā),ScienceIO 依賴于 LangChain。內(nèi)部模型存儲(chǔ)、版本控制和訪問(wèn)由 Huggingface 提供支持。
微調(diào):雖然 ScienceIO 的核心基礎(chǔ)模型是專門針對(duì)醫(yī)療保健數(shù)據(jù)進(jìn)行從頭訓(xùn)練的,也就是說(shuō),他們從未見過(guò)成堆的垃圾社交媒體數(shù)據(jù)或類似數(shù)據(jù),但許多客戶有興趣對(duì)其進(jìn)行額外的微調(diào)用例。ScienceIO 推出了 Learn & Annotate,這是他們的微調(diào)和人機(jī)交互解決方案來(lái)解決這些用例。
我還與 Innerplay 首席執(zhí)行官 Pedro Salles Leite 進(jìn)行了交談,該公司利用人工智能幫助人們和公司變得更具創(chuàng)造力。Innerplay 幫助公司以更快的方式制作視頻,包括劇本創(chuàng)作。
Pedro 八年來(lái)一直在研究和構(gòu)建人工智能用例。關(guān)于他的基礎(chǔ)設(shè)施堆棧,他說(shuō)他的工作是確保產(chǎn)品對(duì)用戶有意義……而不是設(shè)置編排或基礎(chǔ)模型 - 只是增加了另一種復(fù)雜性。這是他的堆棧:
基礎(chǔ)模型:Innerplay 使用 14 種不同的基礎(chǔ)模型將想法變?yōu)楝F(xiàn)實(shí)。他們使用封閉模型主要是因?yàn)椤霸诋a(chǎn)品適合市場(chǎng)之前沒有 GPU”。
矢量數(shù)據(jù)庫(kù):Innerplay 使用矢量數(shù)據(jù)庫(kù)來(lái)執(zhí)行處理 PDF 文檔等任務(wù)。他們從 PDF 生成腳本,需要矢量數(shù)據(jù)庫(kù)來(lái)完成此操作。
微調(diào):Innerplay 非常相信微調(diào)。該公司手動(dòng)準(zhǔn)備數(shù)據(jù)集,但計(jì)劃使用人工智能來(lái)準(zhǔn)備數(shù)據(jù),以便將來(lái)進(jìn)行微調(diào)。
原型制作:他們用它來(lái)評(píng)估輸出和比較模型。Spellbook by Scale 通常用于在進(jìn)入 Python/生產(chǎn)環(huán)境之前快速測(cè)試機(jī)器學(xué)習(xí)過(guò)程中的迭代。
人工智能可觀察性:他們現(xiàn)在開始考慮人工智能可觀察性,以注重隱私的方式改進(jìn)他們的人工智能。作為一個(gè)內(nèi)容創(chuàng)作平臺(tái)。佩德羅說(shuō),“Innerplay 需要確保人們用它來(lái)做善事”。
結(jié)論
對(duì)生成式人工智能基礎(chǔ)設(shè)施的探索僅僅觸及了表面,技術(shù)開發(fā)和底層基礎(chǔ)組件投資的快速進(jìn)步是引人注目的。像 MosaicML 這樣的公司被以驚人的金額收購(gòu),并且該領(lǐng)域的參與者數(shù)量不斷增加,這表明了該領(lǐng)域的巨大價(jià)值和興趣。
這是一個(gè)復(fù)雜且不斷發(fā)展的場(chǎng)景,具有多個(gè)層次,從基礎(chǔ)模型到微調(diào),從半導(dǎo)體到云托管,從應(yīng)用程序框架到模型監(jiān)督。每個(gè)層在利用生成式人工智能的力量并使其在各個(gè)行業(yè)的應(yīng)用中都發(fā)揮著至關(guān)重要的作用。在這項(xiàng)研究中,許多從一個(gè)領(lǐng)域起步的公司擴(kuò)展到其他領(lǐng)域。
文章來(lái)源:https://medium.com/@shriftman/the-building-blocks-of-generative-ai-a75350466a2f