數(shù)據(jù)庫獨(dú)角獸SingleStore:沒有HTAP,機(jī)器學(xué)習(xí)和人工智能都是不切實(shí)際的


“SingleStore(前身 MemSQL)是一個(gè)為數(shù)據(jù)密集型應(yīng)用設(shè)計(jì)的云原生數(shù)據(jù)庫。它是一個(gè)分布式的關(guān)系型 SQL 數(shù)據(jù)庫管理系統(tǒng)(RDBMS),具有 ANSI SQL 支持,它以數(shù)據(jù)加載、事務(wù)處理和分析處理的速度而聞名。SingleStore 主要存儲(chǔ)關(guān)系型數(shù)據(jù),但也可以存儲(chǔ) JSON 數(shù)據(jù)、圖形數(shù)據(jù)和時(shí)間序列數(shù)據(jù)。它支持混合工作負(fù)載,也就是我們常說的 HTAP ,以及更傳統(tǒng)的 OLTP 或 OLAP 工作負(fù)載。對(duì)于查詢,它將結(jié)構(gòu)化查詢語言(SQL)編譯成機(jī)器代碼。SingleStore 數(shù)據(jù)庫引擎可以在各種 Linux 環(huán)境中運(yùn)行,包括私有化部署、公共和私有云供應(yīng)商、通過 Kubernetes 運(yùn)營(yíng)商在容器中運(yùn)行,或者使用 SingleStore 自有的托管云服務(wù)。
”
今天我們主要來聊一聊數(shù)據(jù)庫獨(dú)角獸公司 SingleStore 對(duì) HTAP 的認(rèn)知。

SingleStore,HTAP 界的融資寵兒
說起 SingleStore,一些同學(xué)可能不太了解,但是提到 MemSQL,相信研究過HTAP 數(shù)據(jù)庫發(fā)展脈絡(luò)的同學(xué)就很熟悉了,也可以回顧一下這篇文章《深度干貨!一篇Paper帶您讀懂HTAP》,我們?cè)诘谝还?jié)中介紹了 HTAP 數(shù)據(jù)庫的發(fā)展歷史,其中 MemSQL 就是最早的一波提出行列混存+內(nèi)存計(jì)算的數(shù)據(jù)庫,也是在 2014 年要發(fā)力 HTAP 的,恰巧和 Gartner 正式提出 HTAP 概念是同一年。不過后來在 2020 年 10 月,MemSQL 正式宣布改名為 SingleStore 了。

關(guān)于改名的原因,官方說是為了更好地描述組織的價(jià)值主張。官方表示,盡管 MemSQL 在數(shù)據(jù)架構(gòu)師和性能工程師中廣為人知,但該公司的旗艦數(shù)據(jù)管理產(chǎn)品已經(jīng)得到擴(kuò)展,所以 MemSQL 這個(gè)名字已不足以反映他們當(dāng)前功能和產(chǎn)品愿景的廣度和深度。
其進(jìn)行品牌重塑的目的在于,向外界反映 MemSQL 不僅僅是一個(gè)內(nèi)存數(shù)據(jù)庫,而是一個(gè)可以實(shí)現(xiàn)企業(yè)所有數(shù)據(jù)的平臺(tái)。SingleStore 將為事務(wù)和分析提供一個(gè)數(shù)據(jù)平臺(tái),能夠處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。
SingleStore 首席產(chǎn)品官 Jordan Jigani 還透露了團(tuán)隊(duì)的新愿景,即計(jì)劃提供對(duì)位于 SingleStore 以外任何地方的數(shù)據(jù)的訪問權(quán)限。這項(xiàng)新功能將為跨多云環(huán)境的數(shù)據(jù)提供一個(gè)全局命名空間,使?SingleStore 可以提供一個(gè) API,無論數(shù)據(jù)位于何處,都可以通過該 API 對(duì)數(shù)據(jù)進(jìn)行操作。用戶可以從擁有 SingleStore 計(jì)算集群的任何位置訪問 SingleStore 數(shù)據(jù)庫,同時(shí)遵守訪問權(quán)限和主權(quán)限制。
不得不說,SingleStore 對(duì)市場(chǎng)的敏銳度還是很高的,像?HTAP、云原生、分布式、一體化、平臺(tái)化、實(shí)時(shí)分析處理、數(shù)據(jù)庫 API 化、DBaaS?這些,人家玩得很溜,率先把這些偉大的愿景拋出去又加上技術(shù)實(shí)現(xiàn)確實(shí)不錯(cuò),自然很受資本市場(chǎng)的歡迎,從其融資歷史就可以窺知一二:
融資輪次融資時(shí)間融資金額($)領(lǐng)投機(jī)構(gòu)種子輪2011.07210萬Y Combinator等A 輪2013.01500萬DCVC等B 輪2014.013500萬Accel等B+ 輪2014.09未披露In-Q-Tel等C 輪2016.043600萬Caffeinated Capital 和 REV等D 輪2018.053000萬Glynn Capital Management 和 GV等債務(wù)投資2020.055000萬Hercules Capital獨(dú)家E 輪2020.128000萬Insight Partners等F 輪2021.098000萬Insight Partners等F+ 輪2022.071.16億Goldman Sachs等F++ 輪2022.103000萬Goldman Sachs 和 Prosperity7 Ventures等
截止目前,SingleStore 的總?cè)谫Y額達(dá)到 4.12 億美元,估值超過了 13 億美金。當(dāng)然,可能一些經(jīng)常看 VC 圈子的同學(xué)覺得這個(gè)估值對(duì)于數(shù)據(jù)庫企業(yè)來說不算特別高,也不是很明白,為啥有這么多機(jī)構(gòu)給它投錢,我這里淺析一下:SingleStore 雖然面臨著與 Imply、Oracle、Snowflake 和 MongoDB 等企業(yè)的競(jìng)爭(zhēng),但要知道,SingleStore 現(xiàn)在只有近 400 名員工,卻已經(jīng)擁有大約 300 名客戶,估值還高于 10 億美元,相信明眼人都能看出來,SingleStore 的潛力無限,正如 CMU 的 Andy Pavlo 教授在去年預(yù)測(cè)的那樣,這家公司離 IPO 不遠(yuǎn)了。
此外,Gartner 預(yù)測(cè),到 2022 年,75% 的數(shù)據(jù)庫將遷移到云服務(wù)。一項(xiàng)調(diào)查顯示,每年在大數(shù)據(jù)和人工智能計(jì)劃上投資超過 5000 萬美元的公司數(shù)量在 2019 年上升至 33.9%。這個(gè)預(yù)測(cè)也為 SingleStore 的市場(chǎng)前景增分不少。

如果沒有 HTAP,機(jī)器學(xué)習(xí)和人工智能都是不切實(shí)際的
“下面是一篇來自 SingleStore 的博客,推薦給大家閱讀。
原文鏈接:https://www.singlestore.com/blog/what-is-htap/
”
HTAP,即混合事務(wù)/分析處理,將事務(wù)(如更新數(shù)據(jù)庫)與分析(如尋找可能的銷售線索)相結(jié)合。HTAP 數(shù)據(jù)庫在一個(gè)數(shù)據(jù)庫中支持這兩種工作負(fù)載,提供速度和簡(jiǎn)單性。今天,“云原生 HTAP”的概念很流行,用戶希望 HTAP 數(shù)據(jù)庫能夠與 Kafka、Spark 和其他技術(shù)在云中順利混合和匹配。使用的場(chǎng)景案例包括預(yù)防欺詐、電子商務(wù)的推薦引擎、智能電網(wǎng)和人工智能等等。
HTAP 數(shù)據(jù)庫在某種程度上是為集成流數(shù)據(jù)源(如 Kafka )和用于高級(jí)分析、人工智能和機(jī)器學(xué)習(xí)(如 Spark)的消息系統(tǒng)而設(shè)計(jì)的。它們?yōu)槎鄠€(gè)分析客戶端提供服務(wù),從輸入 SQL 查詢的業(yè)務(wù)分析師,到 BI 工具、應(yīng)用程序和機(jī)器學(xué)習(xí)模型,這些客戶端每秒生成數(shù)十個(gè)或數(shù)千個(gè)查詢。
HTAP之前--OLTP 和 OLAP 分離
HTAP 將不同類型的數(shù)據(jù)處理組合成一個(gè)連貫的整體。這兩種處理方式差別很大。事務(wù)處理(OLTP)——在數(shù)據(jù)庫中添加和更新記錄——對(duì)單個(gè)記錄操作要求非常高的可靠性,以及準(zhǔn)確性和速度。比如,“幫我更新張某某的當(dāng)前地址”?就是事務(wù)性更新的一個(gè)例子。
另一方面,分析處理意味著非常快速地在一個(gè)或多個(gè)數(shù)據(jù)庫表中查找單個(gè)記錄、多個(gè)記錄或一種類型的記錄的總數(shù)。“幫我找到所有住在科羅拉多州并擁有自己房子的訂戶” 就是一個(gè)分析請(qǐng)求的例子。
第一批有效的數(shù)據(jù)庫是面向事務(wù)的,最初廣泛應(yīng)用于20世紀(jì)70年代和80年代。它們被稱為在線事務(wù)處理(OLTP)系統(tǒng)。當(dāng)時(shí) OLTP 系統(tǒng)所作的優(yōu)化,僅是針對(duì)低功率、硬盤容量較小的計(jì)算機(jī)進(jìn)行的。只有那些打印出來的報(bào)告會(huì)使用到數(shù)據(jù)庫的分析能力,而這種分析往往只是根據(jù)不同的關(guān)鍵字段進(jìn)行分類排序,比如按州或郵政編碼。
當(dāng)后來加入更多的分析處理時(shí),事務(wù)系統(tǒng)已經(jīng)很忙了,所以數(shù)據(jù)被復(fù)制到另一臺(tái)運(yùn)行不同軟件的計(jì)算機(jī)上。這些數(shù)據(jù)庫稱為在線分析處理(OLAP)數(shù)據(jù)庫。數(shù)據(jù)倉庫和數(shù)據(jù)集市是專門的 OLAP 數(shù)據(jù)庫,存放用于分析的非操作數(shù)據(jù)。
使用多種語言對(duì) OLAP 系統(tǒng)上的數(shù)據(jù)進(jìn)行查詢,這些語言結(jié)合了結(jié)構(gòu)化查詢語言(SQL)。一開始,分析查詢是由個(gè)別分析師直接輸入的;到后面,就開始使用商業(yè)智能(BI)程序來簡(jiǎn)化查詢。而現(xiàn)今,軟件應(yīng)用程序已經(jīng)可以自己生成查詢了,通常以每秒數(shù)千個(gè)的速度生成。
這創(chuàng)建了名為提取、轉(zhuǎn)換和加載(Extract、Transform和Load, ETL)的整個(gè)過程和規(guī)程,只是為了將數(shù)據(jù)從 OLTP 移動(dòng)到 OLAP。作為ETL過程的一部分,數(shù)據(jù)所有者可以混合使用他們自己的不同數(shù)據(jù)庫、外部購(gòu)買的數(shù)據(jù)、社會(huì)信號(hào)和其他有用的信息。然而,使用三個(gè)不同的筒倉意味著OLAP數(shù)據(jù)庫中的數(shù)據(jù)總是過時(shí)的--往往是一天到一周的數(shù)據(jù)。
向 HTAP 變遷
OLTP/ETL/OLAP結(jié)構(gòu)今天仍然被廣泛使用。然而,隨著時(shí)間的推移,OLAP和OLTP數(shù)據(jù)庫(速度較慢)都獲得了以分布式方式工作的能力。也就是說,單個(gè)數(shù)據(jù)表現(xiàn)在可以分布在多臺(tái)計(jì)算機(jī)上。
跨多個(gè)服務(wù)器分布允許數(shù)據(jù)表變得更大。分布式數(shù)據(jù)表可以隨時(shí)提高性能,只需添加更多的服務(wù)器來處理更多的事務(wù)或回復(fù)更多的查詢。一個(gè)數(shù)據(jù)庫——一個(gè)或多個(gè)數(shù)據(jù)表,在重疊的數(shù)據(jù)上提供相關(guān)功能——現(xiàn)在可以在靈活大小的機(jī)器陣列上運(yùn)行,可以在本地運(yùn)行,也可以在云中運(yùn)行。
隨著這些功能的增加,在單個(gè)數(shù)據(jù)庫中混合 OLTP 和 OLAP 功能的令人興奮的可能性已經(jīng)實(shí)現(xiàn)。使這成為可能的數(shù)據(jù)庫軟件在 2014 年被 Gartner 命名為混合事務(wù)和分析處理(HTAP)。
這種能力是如此的新,以至于它有許多名稱,包括混合操作分析處理(HOAP)和translytical數(shù)據(jù)庫(它結(jié)合了trans_actions和ana_lytical函數(shù))。HTAP、HOAP 和 translytical 數(shù)據(jù)庫也被描述為執(zhí)行操作分析——“使用SLA的分析”,或者必須提供接近實(shí)時(shí)響應(yīng)的分析。Gartner 還提出了增強(qiáng)事務(wù)處理(ATP),它描述了 HTAP 工作負(fù)載的一個(gè)子集,包括操作 AI 和機(jī)器學(xué)習(xí)。
HTAP 的優(yōu)勢(shì)
HTAP有很多好處。HTAP創(chuàng)建了一個(gè)更簡(jiǎn)單的體系結(jié)構(gòu),因?yàn)閮煞N不同類型的數(shù)據(jù)庫以及ETL流程都被單個(gè)數(shù)據(jù)庫所取代。而且,數(shù)據(jù)拷貝也被消除了。數(shù)據(jù)不是先存儲(chǔ)在OLTP數(shù)據(jù)庫中(用于事務(wù)),然后再被復(fù)制到 OLAP 中(可能是多次復(fù)制,用于分析),而是作為單一來源數(shù)據(jù)駐留在HTAP數(shù)據(jù)庫中(A single source of truth resides in the HTAP database)。
這些根本性的改變帶來了額外的好處:操作要簡(jiǎn)單得多,因?yàn)橹挥幸粋€(gè)系統(tǒng)在運(yùn)行,而不是幾個(gè)。確保單個(gè)數(shù)據(jù)庫的安全比在不同系統(tǒng)上進(jìn)行多個(gè)數(shù)據(jù)拷貝要容易。而且數(shù)據(jù)可以是新鮮的——一旦數(shù)據(jù)被處理,它也可以用于分析。不再需要等待數(shù)小時(shí)或數(shù)天(有時(shí)更長(zhǎng)時(shí)間),也不要再讓數(shù)據(jù)通過 OLTP 和 ETL 才能進(jìn)行分析。
HTAP 可以實(shí)現(xiàn)非常大的成本效益,同時(shí)還可以增加相關(guān)的收入和降低成本。架構(gòu)和操作的簡(jiǎn)單性大大節(jié)省了成本,更高的性能使現(xiàn)有的創(chuàng)收功能更具生產(chǎn)力,并使新的功能實(shí)現(xiàn)成為可能。
物聯(lián)網(wǎng)(IoT)從HTAP中獲益匪淺。如果你正在運(yùn)行一個(gè)智能電網(wǎng),你需要根據(jù)最新的數(shù)據(jù)快速運(yùn)行。分析師、儀表盤和應(yīng)用程序都需要一次性訪問相同的、最新的數(shù)據(jù)。
沒有 HTAP,機(jī)器學(xué)習(xí)和人工智能實(shí)際上是不切實(shí)際的。如果不能從當(dāng)前和歷史數(shù)據(jù)中學(xué)習(xí),那么運(yùn)行機(jī)器學(xué)習(xí)算法就沒有多大意義。沒有人想運(yùn)行一個(gè)預(yù)測(cè)性維護(hù)程序——假如這個(gè)程序告訴你:你公司的油井可能在一周前需要緊急維護(hù),或者昨天有幾個(gè)有趣的旅行便宜貨。我相信你該明白,這絲毫沒有意義。
OK,今天的分享就到這里,歡迎大家關(guān)注 StoneDB 公眾號(hào),比別人更懂HTAP,就看 StoneDB。