散文網(wǎng) » 科技 »學習 » 如何給一個 HTAP 數(shù)據(jù)庫做基準測試？| StoneDB學術分享會 #4

如何給一個 HTAP 數(shù)據(jù)庫做基準測試？| StoneDB學術分享會 #4

2023-07-20 14:08 作者:StoneDB 0人讀過 | 我要投稿

在最新一屆國際數(shù)據(jù)庫頂級會議 ACM SIGMOD 2022 上，來自清華大學的李國良和張超兩位老師發(fā)表了一篇論文：《HTAP Database: What is New and What is Next》,并做了?《HTAP Database：A Tutorial?的專項報告。這幾期學術分享會的文章，StoneDB 將系統(tǒng)地梳理一下兩位老師的報告，帶讀者了解 HTAP 的發(fā)展現(xiàn)狀和未來趨勢。

在深度干貨！一篇 Paper 帶您讀懂 HTAP?這期中我們對HTAP產(chǎn)生的背景和現(xiàn)有的HTAP數(shù)據(jù)庫及其技術棧做了比較全面的介紹。

在爆肝整理 5000 字！HTAP 的關鍵技術有哪些？這一期，我們對 HTAP 的五大關鍵技術進行了逐個解讀。

本期主要介紹一下主流的幾個的 HTAP 數(shù)據(jù)庫基準測試。

編輯：宇亭
頭圖：Yeekin

關于 HTAP 數(shù)據(jù)庫的基準測試，我們在學術分享會的第三期也介紹過一個來自慕尼黑工業(yè)大學 DB 組的相關工作，感興趣可以了解一下，在這篇報告中，主要介紹兩種：CH-Benchmark 和 HTAPBench。

如圖所示，這兩種基準測試的核心區(qū)別在于，CH-Benchmark 是混合負載測試，即 OLTP 和 OLAP 一起測；HTAPBench 是先固定統(tǒng)一 OLTP 的標準，然后在這個標準下再去控制測試 OLAP（當然還多了一個時間窗口的選擇）。

這里順便簡單科普一下什么是 TPC-C 和 TPC-H:

先介紹一下 TPC 是啥，TPC(Transaction Processing Performance Council，事務處理性能委員會)是由數(shù)十家會員公司創(chuàng)建的非盈利組織，總部設在美國。TPC 的成員主要是計算機軟硬件廠家，而非計算機用戶，其功能是制定商務應用基準程序的標準規(guī)范、性能和價格度量，并管理測試結果的發(fā)布，其他更多信息就可以百度啦，總之這個組織在國際上很有影響力，學術界和工業(yè)界也都蠻認可的。

TPC-C: TPC Benchmark C 于1992年7月批準，是一個在線交易處理（OLTP）基準。TPC-C 比以前的 OLTP 基準測試（如TPC-A）更復雜，因為它具有多種事務類型、更復雜的數(shù)據(jù)庫和整體執(zhí)行結構。TPC-C 涉及五個不同類型和復雜度的并發(fā)事務的混合，要么在線執(zhí)行，要么排隊等待延遲執(zhí)行。數(shù)據(jù)庫由九種類型的表組成，這些表存儲的記錄多而廣泛。TPC-C 以每分鐘事務數(shù)（tpmC）來衡量。雖然基準描述了批發(fā)供應商的活動，但 TPC-C 并不局限于任何特定業(yè)務部門的活動，而是代表必須管理、銷售或分銷產(chǎn)品或服務的任何行業(yè)。官網(wǎng)：https://www.tpc.org/tpcc/default5.asp
TPC-H: TPC-H 是 TPC 組織制定的 OLAP 型數(shù)據(jù)庫管理系統(tǒng)性能測試的一個標準，用來模擬真實商業(yè)的應用環(huán)境，以評估商業(yè)分析中決策支持系統(tǒng)（DSS）的性能。TPC-H 模擬真實商業(yè)交易數(shù)據(jù)庫的動態(tài)查詢，包含了一整套面向商業(yè)的 ad-hoc 查詢和并發(fā)數(shù)據(jù)修改，強調(diào)測試的操作系統(tǒng)、數(shù)據(jù)庫、和 I/O 性能，關注查詢能力。通過TPC-H 測試，可以全方位評測系統(tǒng)的整體商業(yè)計算綜合能力，具有普遍的商業(yè)實用意義。官網(wǎng)：https://www.tpc.org/tpch/

簡單說，TPC-C 是專門測試 OLTP 的；TPC-H 是專門測試 OLAP 的。當然，其實還有個 TPC-DS 也比較知名（現(xiàn)在一般用來測數(shù)倉的），感興趣也可以了解一下。

雖然以上兩種測試基準已經(jīng)非常給力，但是對于測試? HTAP 卻又都顯得片面了一些，因為 HTAP 數(shù)據(jù)庫上是同時跑著 OLTP 和 OLAP 工作負載的，單獨只考量? OLTP 或者?OLAP 的性能都是不對的，要測就得綜合評估兩者一起工作時的性能（比如 TP 和 AP 的隔離性），因此，后續(xù)有人提出了專門針對?HTAP?數(shù)據(jù)庫的基準測試，其中比較知名的就是 CH-Benchmark 和 HTAPBench。

這兩個測試基準單獨拿出來都能寫一篇文章，但在報告中其實只有兩段話，我這一篇解讀文章先做一個簡單的介紹，后面會出擴充的講解，歡迎大家關注 StoneDB 公眾號。

CH-Benchmark

在 CH-Benchmark 中結合了 TPC-C 和 TPC-H 兩種基準，它把原來 TPC-C 中的 9 個表和 TPC-H 中的 8 個表修改合并成了 12 個表，并將兩者的伸縮模型也統(tǒng)一起來（Scaling TPC-H by the same factors of TPC-C）。

這里小編來解釋一下,TPC-C 和 TPC-H 遵循不同的伸縮模型。TPC-C 遵循連續(xù)伸縮模型，倉庫表中的數(shù)據(jù)隨著系統(tǒng)性能的增加而增加。相反，TPC-H 遵循固定比例因子模型，其中數(shù)據(jù)庫大小由比例因子設置，而與系統(tǒng)性能無關。在 CH-Benchmark 中要求令 TPC-H 的伸縮模型去與TPC-C的伸縮模型相適應（以TPC-C的伸縮模型為基礎）,也就是要求根據(jù)TPC-C規(guī)則，去設定各表（Warehouse, Stock, Item, History, Neworder, Orderline, District, Customer, and Order）的規(guī)模。

關于查詢語句，有三點大的修改：

保留了 TPC-C 中的五個事務：新訂單（New Order）：客戶輸入一筆新的訂貨交易；支付操作（Payment）：更新客戶帳戶余額以反映其支付狀況；發(fā)貨（Delivery）：發(fā)貨（模擬批處理交易）；訂單狀態(tài)查詢（Order Status）：查詢客戶最近交易的狀態(tài)；庫存狀態(tài)查詢（Stock Level）：查詢倉庫庫存狀況，以便能夠及時補貨。
修改了 TPC-H 的 22 條查詢，修改了 table name 和 join key，并減少了算術運算。
刪掉了刷新函數(shù)（refresh functions）

1CH-Benchmark 的執(zhí)行規(guī)則

先僅測試 OLTP 或 OLAP，然后混合執(zhí)行(OLTP+OLAP)
控制 OLTP 和 OLAP 并行流的個數(shù)（The number of parallel OLTP and OLAP streams）

這里就是需要用到基準參數(shù)控制 OLTP 和 OLAP 工作負載的并發(fā)執(zhí)行。

2CH-Benchmark 評測度量的性能指標

這里提出了一種基于參照系的評測指標，主要是結合每分鐘事務(tpmC，transactions per minute)和每小時已完成查詢(QphH，queries per hour)的指標。

面向 OLAP 的指標（OLAP 占據(jù)主導）：

面向 OLTP 的指標（OLTP 占據(jù)主導）：

為了進行這一比較，我們首先從 n 個 OLTP 和 m 個 OLAP 流隔離運行的運行中計算 tpmC 和 QphH 測量值之間的比率。然后，我們將此比率與并行執(zhí)行 n 個 OLTP 和 m 個 OLAP 流的混合工作負載所產(chǎn)生的比率進行比較。與獨立運行工作負載部分相比，并行執(zhí)行的比例更高，這意味著數(shù)據(jù)庫系統(tǒng)在并行執(zhí)行中為 OLTP 事務提供更好的服務。

舉個栗子：隔離執(zhí)行為 5.7@5084 tpmC，混合執(zhí)行為 6.5@5188 tpmC，這表示混合執(zhí)行增加了 OLTP 吞吐量。

參考論文：Cole R, Funke F, Giakoumakis L, et al. The mixed workload CH-benCHmark[C]//Proceedings of the Fourth International Workshop on Testing Database Systems. 2011: 1-6.

HTAPBench

1HTAPBench 的模式和工作負載

這一塊是和 CH-Benchmark（TPC-C + TPC-H）一樣的，不贅述了。

2HTAPBench 的執(zhí)行規(guī)則

Fixed target tpmC with controllable OLAP workers

固定 OLTP （tpmC）為首要目標，然后動態(tài)地控制 OLAP 的 Worker 線程。這種方式在執(zhí)行過程中會根據(jù) OLTP 的實時吞吐量來調(diào)整添加 OLAP 工作流，由此測試出在固定 OLTP 性能下能獲得的最大 OLAP 性能。

Time window for querying newly-inserted data（查詢新插入數(shù)據(jù)的時間窗口）

優(yōu)勢是增加了時間窗口的選擇。Time window 這個不知道大家熟不熟悉，所謂時間窗口，就是根據(jù)時間劃分窗口，是將指定時間范圍內(nèi)的所有數(shù)據(jù)組成一個 window，一次對一個 window 里面的所有數(shù)據(jù)進行計算。詳細的不展開講了，后續(xù)我把這篇論文拿出來解讀一下子。

3HTAPBench 評測度量的性能指標：

Under a certain TP throughput, the AP throughput per hour per worker（在一定 TP 吞吐量下，每個 Worker 每小時的 AP 吞吐量）

參考論文：Coelho F, Paulo J, Vila?a R, et al. Htapbench: Hybrid transactional and analytical processing benchmark[C]//Proceedings of the 8th ACM/SPEC on International Conference on Performance Engineering. 2017: 293-304.

對比

Comparison of HTAP End-to-End Benchmarks

CH-Benchmark：

優(yōu)勢：易用、執(zhí)行靈活
劣勢：數(shù)據(jù)新鮮度較低

HTAPBench：

優(yōu)勢：數(shù)據(jù)新鮮度高
劣勢：固定了 OLTP 的指標

其他 HTAP 測試標準

首先介紹一下端到端（End-to-End）的 HTAP 評測基準，比如：

Swarm64 HTAP benchmark

稍早的有 Swarm64 HTAP benchmark：

結合了 CH-benchmark 和 HTAPBench
采用了 CH-benchmark 中的混合執(zhí)行規(guī)則
采用了 HTAPBench 中的動態(tài)時間窗口。

Github地址：https://github.com/swarm64/s64da-benchmark-toolkit

OLxPBench

最近在 ICDE 2022 上 Kang 提出了 OLxPBench，這種基準測試有三個方法：Su-benchmark（TPC-C）、Fi-Benchmark（small-bank，面向小型銀行）、Tabenchamark（TATP，面向電信行業(yè)）。

參考論文：Kang G, Wang L, Gao W, et al. OLxPBench: Real-time, Semantically Consistent, and Domain-specific are Essential in Benchmarking, Designing, and Implementing HTAP Systems[J]. arXiv preprint arXiv:2203.16095, 2022.

HATrick

來自威斯康辛大學 Miklai 在 SIGMOD 2022 新提出了一個叫 HATrick Benchmark 的混合基準。這個 HATrcik 融合了兩個新的性能指標：吞吐邊界（Throught frontier）和面向查詢的新鮮度（Query-Driven Freshness）。

目前流行的HTAP基準包括 CH-Benchmark、HTAPBench 和 Swarm64。但在測試中有著以下的限制：無法測量性能隔離；無法測量新鮮度；無法識別設計類別。HATtrick benchmark 作為一個開源項目，補充了吞吐量前沿，整合了新鮮度測量方法，可以有效評測 HTAP 系統(tǒng)。

吞吐量：該概念的引入是為了捕捉事務處理和分析處理的性能。通過在2D圖表中可視化吞吐量邊界，我們可以理解 HTAP 系統(tǒng)的整體性能行為，并識別出問題所在。

如上圖，X 軸就是事務的吞吐，Y 軸就是分析的吞吐。這兩張圖怎么看的呢？簡單來說，就是第一幅圖中綠色曲線靠近紅色對角線，表示系統(tǒng)相對穩(wěn)定；第二張圖中綠色曲線遠離紅色對角線，表示 AP 和 TP 兩者工作負載受干擾較大。

新鮮度：該指標的設計，是為了捕捉HTAP系統(tǒng)對實時分析的支持程度。松散地說，HTAP系統(tǒng)的新鮮度是對OLAP查詢可見的數(shù)據(jù)庫更新的延遲度量。

參考論文：Milkai E, Chronis Y, Gaffney K P, et al. How Good is My HTAP System?[C]//Proceedings of the 2022 International Conference on Management of Data. 2022: 1810-1824.

Micro-benchmarks

除了端到端（End-to-End）的HTAP基準，還有一些特別針對數(shù)據(jù)組織（data organization，為啥特別要針對這個？因為數(shù)據(jù)組織是 HTAP 的五大關鍵技術之一哦~）的微型基準測試（Micro-benchmarks），比如：

ADAPT Benchmark?[Arulraj et al, SIGMOD 2016]

插入數(shù)據(jù)后簡單的對一些列數(shù)據(jù)進行 select 操作。

HAP Benchmark?[Athanassoulis et al, VLDB 2019]

這個就是在 select 基礎上增加了一些 insert、delete 和 update 操作。

好了，以上就是本期的分享內(nèi)容，歡迎點贊收藏轉(zhuǎn)發(fā)，咱們下一期再見~

標簽：數(shù)據(jù)庫 MySQL HTAP StoneDB