Index Ventures ④:機器學習的應用進程類似數(shù)據(jù)庫 【好文譯遞】第4 期

?? ?欄目簡介?
如果說之前推出的【論文速讀】是領讀頂會嚴謹?shù)膶嵶C研究論文,那么【好文譯遞】則想傳遞觀點性、發(fā)散性的議論文章,只是靜靜地完整呈現(xiàn)譯文,任您自由地品讀和思考。

??? 編者按?
—
2022年12月13日,Index Ventures?發(fā)布了《The AI Platform Shift》系列文章,四篇文章分別從軟件價值鏈、軟件應用、基礎模型和機器學習四個不同角度,較全面地闡述了 Index 團隊對AI未來趨勢的洞察和判斷,對于業(yè)界具有較高的參考價值。我們已經(jīng)編譯了系列文章的前三篇,本期是最后一篇《The Adoption of Machine Learning Will Resemble the Adoption of Databases》的編譯,原文作者是 Bryan Offutt。

?? 原文中譯?
機器學習的應用進程將類似于數(shù)據(jù)庫
—

和數(shù)據(jù)庫一樣,每個工程師都需要知道如何使用模型,但很少有人需要從頭開始構建模型。
在過去的 50 年,應用軟件的基礎是數(shù)據(jù)庫,但在接下來的 50 年,其基礎則會變成機器學習模型。因此,對機器學習和模型工作原理的基本理解,將成為每個工程師必不可少的重要技能,而不只是少數(shù)專家的領域知識。機器學習工程師會有一席之地,但和構建數(shù)據(jù)庫引擎的人一樣,他們往往人數(shù)很少,并在少數(shù)的大型供應商公司工作。
事實上,人工智能/機器學習在過去十年中的進展已經(jīng)與20世紀末的數(shù)據(jù)庫領域有著驚人的相似之處。早期數(shù)據(jù)庫的發(fā)展有幾個特定的階段,每個階段都持續(xù)了近十年。
① 起始階段(1960s):第一個數(shù)據(jù)庫橫空出世。在當時是一個強大的新生概念,但使用起來十分困難。即使是獲取簡單的數(shù)據(jù)也都很復雜,所有高效檢索的責任都在開發(fā)者身上。
② 計算成本不菲的階段(1970s):在1970年,Edgar Codd發(fā)表了一系列論文,對數(shù)據(jù)庫的關系模型進行概述,并提出了眾所周知并被廣泛使用的“行和列”模型,這個模型的魅力在于其靈活性。它提供了強大、簡單的抽象概念,可以在此基礎上拓展以適配各種使用場景(通過自定義模式)。盡管這是數(shù)據(jù)庫歷史上一個里程碑的時刻,但它在早期階段受到了大量的質疑。這些系統(tǒng)更加容易使用和推理,但它們需要更強大的計算能力。
③ 簡單易用與爆炸式商業(yè)化階段(1980s):這十年,關系型數(shù)據(jù)庫蓬勃發(fā)展。隨著計算資源的價格降低,關系型數(shù)據(jù)庫的成本效益大大增加,且其易用性使其一躍成為如今數(shù)據(jù)庫中的巨擘。尤其重要的一點是,關系型數(shù)據(jù)庫通過查詢優(yōu)化,將性能管理的大部分職責從開發(fā)者身上轉移到數(shù)據(jù)庫中。這讓使用這些系統(tǒng)所需的技能要求遠遠小于先前的網(wǎng)狀數(shù)據(jù)庫和層次數(shù)據(jù)庫。SQL(發(fā)明于1976年,但在80年代中期才成為標準)成為了數(shù)據(jù)庫的通用語言,諸如甲骨文(Oracle)這樣的大型公司則成為了商業(yè)巨頭。
④ 普及階段(1990s至今):快近四十年,幾乎世界上所有的應用軟件都在使用數(shù)據(jù)庫(不管是關系型數(shù)據(jù)庫還是其他類型)。了解它們的工作原理已經(jīng)成為了程序員需要學習的首要內容之一,圍繞著信息數(shù)據(jù)結構棧發(fā)展的開發(fā)人員必須至少對它們的工作方式有基本的了解,才能有效地開展工作。此外,沒有公司會考慮構建它們自己的數(shù)據(jù)庫——這樣做完全不劃算。相反,他們使用現(xiàn)成的產(chǎn)品,這些產(chǎn)品允許公司將特定用例的數(shù)據(jù)模型(模式)放置在數(shù)據(jù)庫上層。一些產(chǎn)品是免費且開源的(Postgres),其他產(chǎn)品則來自價值數(shù)十億的商業(yè)組織。這種情況一直存在(早期的數(shù)據(jù)庫是由IBM等人創(chuàng)建的),但我們認為這仍然值得被重申。
有趣的是,數(shù)據(jù)庫的發(fā)展進程非常接近于我們所看到的機器學習和AI的商業(yè)化過程:
① 大公司壟斷階段(2017年前):最初,訓練一個可以做點有用的事情的機器學習模型是一項高度專業(yè)化且非常復雜的工作。你需要自己找數(shù)據(jù),需要有足夠的計算量來對這些數(shù)據(jù)進行訓練,需要選擇一種架構,還需要深入了解如何對超參數(shù)進行調參來優(yōu)化訓練的輸出。所有的這些都成本太高、太困難了,即使你沒有使用任何深度學習技術,也是正確的。
② 早期Transfermor階段(2017-2020):像數(shù)據(jù)庫一樣,AI 的未來隨著一篇題為 “Attention Is All You Need”的論文展開,這篇論文介紹了一種名為Transformer的算法架構。隨后不久,一系列的預訓練基礎模型(BERT,XLNET,GPT-2)使用這種架構實現(xiàn)了 SOTA 結果,尤其是在語言方面。這些模型隨后都被開源,類似于如何將模式添加到關系型數(shù)據(jù)庫中來適配其用例,用戶可以根據(jù)自己的數(shù)據(jù)來對這些基礎模型進行微調。
③ 十億級參數(shù)和創(chuàng)業(yè)公司階段(2020 至今):當前階段始于 OpenAI 推出 GPT-3。GPT-3證明了 Transformer 模型可以擴展到數(shù)十億參數(shù),而不會在性能表現(xiàn)上出現(xiàn)漸近線,并且一個非常大的預訓練基礎模型可以在許多不同的任務中表現(xiàn)良好。通用性與 OpenAI 通過 API 提供 GPT-3 這一事實相結合,帶來了Jasper 和 Copy.ai 等公司的爆炸式增長。正如查詢優(yōu)化器將性能的復雜性從應用程序開發(fā)人員轉移到數(shù)據(jù)庫供應商一樣,AI發(fā)展的這一階段也將訓練的復雜性從最終用戶轉移到了模型供應商。
④ 普及階段(未來):不知不覺中,說一個產(chǎn)品“使用人工智能”似乎和說它“使用數(shù)據(jù)庫”一樣顯然且愚蠢。今天,普通開發(fā)者可能不知道查詢計劃器是如何工作的,但他們肯定會使用數(shù)據(jù)庫。同樣,我們也不指望五年內普通開發(fā)人員知道 Transformer的工作原理,但我們保證他們會知道如何使用模型。Cohere 和 Twelve Labs等公司已經(jīng)在分別為文本和視頻創(chuàng)建基礎模塊,支持用戶像使用數(shù)據(jù)庫一樣簡單地訪問強大的模型。
無數(shù)公司將人工智能作為核心組件,但無法將其作為關鍵的差異化優(yōu)勢進行宣傳,這已經(jīng)證明了這些模型的日益普及。我們之前投資的 Gong 在他們的產(chǎn)品中廣泛使用語音到文本這一技術,但網(wǎng)站的首頁沒有提到 ML 或 AI。模型本身是一個實現(xiàn)細節(jié)——它很重要,但沒有區(qū)分度。區(qū)分度在于 Gong 圍繞語音到文本模型構建了出色的產(chǎn)品體驗,就像 Salesforce 和其他競品的區(qū)別在于圍繞數(shù)據(jù)庫?構建了出色的產(chǎn)品體驗。并不是數(shù)據(jù)庫本身,而正是這種體驗讓他們成為了價值數(shù)十億美元的企業(yè)。
*聲明:原文來自 Index Ventures 官網(wǎng),如有侵權,可提議撤稿

?? ?好文征集?
歡迎大家添加 OpenBMB 微信,即可進入大模型社群交流文章,也可分享推薦更多AI領域的好文!文章時效不限,既可以是討論密集的的熱點時文,也可以是歷久彌香的經(jīng)典前文~

? 傳送門 |官方網(wǎng)站?
?? https://www.openbmb.org
? 傳送門 |GitHub 主頁?
??? https://github.com/OpenBMB
?? 加社群/ 提建議/ 有疑問?
請找 OpenBMB 萬能小助手(上方二維碼)
?? 關注我們
微信搜索關注 “OpenBMB開源社區(qū)”
后臺回復“CPM-Live” 即可加入CPM-Live加油群
還可獲取更多大模型干貨知識和前沿資訊!?

