手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » Index Ventures ④：機器學習的應用進程類似數(shù)據(jù)庫【好文譯遞】第4 期

Index Ventures ④：機器學習的應用進程類似數(shù)據(jù)庫【好文譯遞】第4 期

2023-03-16 11:35 作者:OpenBMB 0人讀過 | 我要投稿

?? ?欄目簡介?

如果說之前推出的【論文速讀】是領讀頂會嚴謹?shù)膶嵶C研究論文，那么【好文譯遞】則想傳遞觀點性、發(fā)散性的議論文章，只是靜靜地完整呈現(xiàn)譯文，任您自由地品讀和思考。

??? 編者按?

—

2022年12月13日，Index Ventures?發(fā)布了《The AI Platform Shift》系列文章，四篇文章分別從軟件價值鏈、軟件應用、基礎模型和機器學習四個不同角度，較全面地闡述了 Index 團隊對AI未來趨勢的洞察和判斷，對于業(yè)界具有較高的參考價值。我們已經(jīng)編譯了系列文章的前三篇，本期是最后一篇《The Adoption of Machine Learning Will Resemble the Adoption of Databases》的編譯，原文作者是 Bryan Offutt。

?? 原文中譯?

機器學習的應用進程將類似于數(shù)據(jù)庫

—

和數(shù)據(jù)庫一樣，每個工程師都需要知道如何使用模型，但很少有人需要從頭開始構建模型。

在過去的 50 年，應用軟件的基礎是數(shù)據(jù)庫，但在接下來的 50 年，其基礎則會變成機器學習模型。因此，對機器學習和模型工作原理的基本理解，將成為每個工程師必不可少的重要技能，而不只是少數(shù)專家的領域知識。機器學習工程師會有一席之地，但和構建數(shù)據(jù)庫引擎的人一樣，他們往往人數(shù)很少，并在少數(shù)的大型供應商公司工作。

事實上，人工智能/機器學習在過去十年中的進展已經(jīng)與20世紀末的數(shù)據(jù)庫領域有著驚人的相似之處。早期數(shù)據(jù)庫的發(fā)展有幾個特定的階段，每個階段都持續(xù)了近十年。

① 起始階段（1960s）：第一個數(shù)據(jù)庫橫空出世。在當時是一個強大的新生概念，但使用起來十分困難。即使是獲取簡單的數(shù)據(jù)也都很復雜，所有高效檢索的責任都在開發(fā)者身上。

② 計算成本不菲的階段（1970s）：在1970年，Edgar Codd發(fā)表了一系列論文，對數(shù)據(jù)庫的關系模型進行概述，并提出了眾所周知并被廣泛使用的“行和列”模型，這個模型的魅力在于其靈活性。它提供了強大、簡單的抽象概念，可以在此基礎上拓展以適配各種使用場景（通過自定義模式）。盡管這是數(shù)據(jù)庫歷史上一個里程碑的時刻，但它在早期階段受到了大量的質疑。這些系統(tǒng)更加容易使用和推理，但它們需要更強大的計算能力。

③ 簡單易用與爆炸式商業(yè)化階段（1980s）：這十年，關系型數(shù)據(jù)庫蓬勃發(fā)展。隨著計算資源的價格降低，關系型數(shù)據(jù)庫的成本效益大大增加，且其易用性使其一躍成為如今數(shù)據(jù)庫中的巨擘。尤其重要的一點是，關系型數(shù)據(jù)庫通過查詢優(yōu)化，將性能管理的大部分職責從開發(fā)者身上轉移到數(shù)據(jù)庫中。這讓使用這些系統(tǒng)所需的技能要求遠遠小于先前的網(wǎng)狀數(shù)據(jù)庫和層次數(shù)據(jù)庫。SQL（發(fā)明于1976年，但在80年代中期才成為標準）成為了數(shù)據(jù)庫的通用語言，諸如甲骨文（Oracle）這樣的大型公司則成為了商業(yè)巨頭。

④ 普及階段（1990s至今）：快近四十年，幾乎世界上所有的應用軟件都在使用數(shù)據(jù)庫（不管是關系型數(shù)據(jù)庫還是其他類型）。了解它們的工作原理已經(jīng)成為了程序員需要學習的首要內容之一，圍繞著信息數(shù)據(jù)結構棧發(fā)展的開發(fā)人員必須至少對它們的工作方式有基本的了解，才能有效地開展工作。此外，沒有公司會考慮構建它們自己的數(shù)據(jù)庫——這樣做完全不劃算。相反，他們使用現(xiàn)成的產(chǎn)品，這些產(chǎn)品允許公司將特定用例的數(shù)據(jù)模型（模式）放置在數(shù)據(jù)庫上層。一些產(chǎn)品是免費且開源的（Postgres），其他產(chǎn)品則來自價值數(shù)十億的商業(yè)組織。這種情況一直存在（早期的數(shù)據(jù)庫是由IBM等人創(chuàng)建的），但我們認為這仍然值得被重申。

有趣的是，數(shù)據(jù)庫的發(fā)展進程非常接近于我們所看到的機器學習和AI的商業(yè)化過程：

① 大公司壟斷階段（2017年前）：最初，訓練一個可以做點有用的事情的機器學習模型是一項高度專業(yè)化且非常復雜的工作。你需要自己找數(shù)據(jù)，需要有足夠的計算量來對這些數(shù)據(jù)進行訓練，需要選擇一種架構，還需要深入了解如何對超參數(shù)進行調參來優(yōu)化訓練的輸出。所有的這些都成本太高、太困難了，即使你沒有使用任何深度學習技術，也是正確的。

② 早期Transfermor階段（2017-2020）：像數(shù)據(jù)庫一樣，AI 的未來隨著一篇題為 “Attention Is All You Need”的論文展開，這篇論文介紹了一種名為Transformer的算法架構。隨后不久，一系列的預訓練基礎模型（BERT，XLNET，GPT-2）使用這種架構實現(xiàn)了 SOTA 結果，尤其是在語言方面。這些模型隨后都被開源，類似于如何將模式添加到關系型數(shù)據(jù)庫中來適配其用例，用戶可以根據(jù)自己的數(shù)據(jù)來對這些基礎模型進行微調。

③ 十億級參數(shù)和創(chuàng)業(yè)公司階段（2020 至今）：當前階段始于 OpenAI 推出 GPT-3。GPT-3證明了 Transformer 模型可以擴展到數(shù)十億參數(shù)，而不會在性能表現(xiàn)上出現(xiàn)漸近線，并且一個非常大的預訓練基礎模型可以在許多不同的任務中表現(xiàn)良好。通用性與 OpenAI 通過 API 提供 GPT-3 這一事實相結合，帶來了Jasper 和 Copy.ai 等公司的爆炸式增長。正如查詢優(yōu)化器將性能的復雜性從應用程序開發(fā)人員轉移到數(shù)據(jù)庫供應商一樣，AI發(fā)展的這一階段也將訓練的復雜性從最終用戶轉移到了模型供應商。

④ 普及階段（未來）：不知不覺中，說一個產(chǎn)品“使用人工智能”似乎和說它“使用數(shù)據(jù)庫”一樣顯然且愚蠢。今天，普通開發(fā)者可能不知道查詢計劃器是如何工作的，但他們肯定會使用數(shù)據(jù)庫。同樣，我們也不指望五年內普通開發(fā)人員知道 Transformer的工作原理，但我們保證他們會知道如何使用模型。Cohere 和 Twelve Labs等公司已經(jīng)在分別為文本和視頻創(chuàng)建基礎模塊，支持用戶像使用數(shù)據(jù)庫一樣簡單地訪問強大的模型。

無數(shù)公司將人工智能作為核心組件，但無法將其作為關鍵的差異化優(yōu)勢進行宣傳，這已經(jīng)證明了這些模型的日益普及。我們之前投資的 Gong 在他們的產(chǎn)品中廣泛使用語音到文本這一技術，但網(wǎng)站的首頁沒有提到 ML 或 AI。模型本身是一個實現(xiàn)細節(jié)——它很重要，但沒有區(qū)分度。區(qū)分度在于 Gong 圍繞語音到文本模型構建了出色的產(chǎn)品體驗，就像 Salesforce 和其他競品的區(qū)別在于圍繞數(shù)據(jù)庫?構建了出色的產(chǎn)品體驗。并不是數(shù)據(jù)庫本身，而正是這種體驗讓他們成為了價值數(shù)十億美元的企業(yè)。

*聲明：原文來自 Index Ventures 官網(wǎng)，如有侵權，可提議撤稿

?? ?好文征集?

歡迎大家添加 OpenBMB 微信，即可進入大模型社群交流文章，也可分享推薦更多AI領域的好文！文章時效不限，既可以是討論密集的的熱點時文，也可以是歷久彌香的經(jīng)典前文~

? 傳送門｜官方網(wǎng)站?

?? https://www.openbmb.org

? 傳送門｜GitHub 主頁?

??? https://github.com/OpenBMB

?? 加社群/ 提建議/ 有疑問?

請找 OpenBMB 萬能小助手（上方二維碼）

?? 關注我們

微信搜索關注 “OpenBMB開源社區(qū)”

后臺回復“CPM-Live” 即可加入CPM-Live加油群

還可獲取更多大模型干貨知識和前沿資訊！?

標簽：學習科技人工智能 AI 數(shù)據(jù)庫機器學習