最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

好好的系統(tǒng),為什么要分庫分表?

2023-02-21 15:21 作者:要寵你上天  | 我要投稿

什么是分庫分表

分庫分表是在海量數(shù)據(jù)下,由于單庫、表數(shù)據(jù)量過大,導(dǎo)致數(shù)據(jù)庫性能持續(xù)下降的問題,演變出的技術(shù)方案。

分庫分表是由分庫分表這兩個獨立概念組成的,只不過通常分庫與分表的操作會同時進行,以至于我們習(xí)慣性的將它們合在一起叫做分庫分表。

通過一定的規(guī)則,將原本數(shù)據(jù)量大的數(shù)據(jù)庫拆分成多個單獨的數(shù)據(jù)庫,將原本數(shù)據(jù)量大的表拆分成若干個數(shù)據(jù)表,使得單一的庫、表性能達到最優(yōu)的效果(響應(yīng)速度快),以此提升整體數(shù)據(jù)庫性能。

為什么分庫分表

單機數(shù)據(jù)庫的存儲能力、連接數(shù)是有限的,它自身就很容易會成為系統(tǒng)的瓶頸。當(dāng)單表數(shù)據(jù)量在百萬以里時,我們還可以通過添加從庫、優(yōu)化索引提升性能。

一旦數(shù)據(jù)量朝著千萬以上趨勢增長,再怎么優(yōu)化數(shù)據(jù)庫,很多操作性能仍下降嚴(yán)重。為了減少數(shù)據(jù)庫的負(fù)擔(dān),提升數(shù)據(jù)庫響應(yīng)速度,縮短查詢時間,這時候就需要進行分庫分表。

為什么需要分庫?

容量

我們給數(shù)據(jù)庫實例分配的磁盤容量是固定的,數(shù)據(jù)量持續(xù)的大幅增長,用不了多久單機的容量就會承載不了這么多數(shù)據(jù),解決辦法簡單粗暴,加容量!

連接數(shù)

單機的容量可以隨意擴展,但數(shù)據(jù)庫的連接數(shù)卻是有限的,在高并發(fā)場景下多個業(yè)務(wù)同時對一個數(shù)據(jù)庫操作,很容易將連接數(shù)耗盡導(dǎo)致too many connections報錯,導(dǎo)致后續(xù)數(shù)據(jù)庫無法正常訪問。

可以通過max_connections查看MySQL最大連接數(shù)。

show?variables?like?'%max_connections%'

將原本單數(shù)據(jù)庫按不同業(yè)務(wù)拆分成訂單庫、物流庫、積分庫等不僅可以有效分?jǐn)倲?shù)據(jù)庫讀寫壓力,也提高了系統(tǒng)容錯性。

為什么需要分表?

做過報表業(yè)務(wù)的同學(xué)應(yīng)該都體驗過,一條SQL執(zhí)行時間超過幾十秒的場景。

導(dǎo)致數(shù)據(jù)庫查詢慢的原因有很多,SQL沒命中索引、like掃全表、用了函數(shù)計算,這些都可以通過優(yōu)化手段解決,可唯獨數(shù)據(jù)量大是MySQL無法通過自身優(yōu)化解決的。慢的根本原因是InnoDB存儲引擎,聚簇索引結(jié)構(gòu)的 B+tree 層級變高,磁盤IO變多查詢性能變慢,詳細(xì)原理自行查找一下,這里不用過多篇幅說明。

阿里的開發(fā)手冊中有條建議,單表行數(shù)超500萬行或者單表容量超過2GB,就推薦分庫分表,然而理想和實現(xiàn)總是有差距的,阿里這種體量的公司不差錢當(dāng)然可以這么用,實際上很多公司單表數(shù)據(jù)幾千萬、億級別仍然不選擇分庫分表。

什么時候分庫分表

技術(shù)群里經(jīng)常會有小伙伴問,到底什么情況下會用分庫分表呢?

分庫分表要解決的是現(xiàn)存海量數(shù)據(jù)訪問的性能瓶頸,對持續(xù)激增的數(shù)據(jù)量所做出的架構(gòu)預(yù)見性。

是否分庫分表的關(guān)鍵指標(biāo)是數(shù)據(jù)量,我們以fire100.top這個網(wǎng)站的資源表?t_resource為例,系統(tǒng)在運行初始的時候,每天只有可憐的幾十個資源上傳,這時使用單庫、單表的方式足以支持系統(tǒng)的存儲,數(shù)據(jù)量小幾乎沒什么數(shù)據(jù)庫性能瓶頸。

但某天開始一股神秘的流量進入,系統(tǒng)每日產(chǎn)生的資源數(shù)據(jù)量暴增至十萬甚至上百萬級別,這時資源表數(shù)據(jù)量到達千萬級,查詢響應(yīng)變得緩慢,數(shù)據(jù)庫的性能瓶頸逐漸顯現(xiàn)。

以MySQL數(shù)據(jù)庫為例,單表的數(shù)據(jù)量在達到億條級別,通過加索引、SQL調(diào)優(yōu)等傳統(tǒng)優(yōu)化策略,性能提升依舊微乎其微時,就可以考慮做分庫分表了。

既然MySQL存儲海量數(shù)據(jù)時會出現(xiàn)性能瓶頸,那么我們是不是可以考慮用其他方案替代它?比如高性能的非關(guān)系型數(shù)據(jù)庫MongoDB?

可以,但要看存儲的數(shù)據(jù)類型!

現(xiàn)在互聯(lián)網(wǎng)上大部分公司的核心數(shù)據(jù)幾乎是存儲在關(guān)系型數(shù)據(jù)庫(MySQL、Oracle等),因為它們有著NoSQL如法比擬的穩(wěn)定性和可靠性,產(chǎn)品成熟生態(tài)系統(tǒng)完善,還有核心的事務(wù)功能特性,也是其他存儲工具不具備的,而評論、點贊這些非核心數(shù)據(jù)還是可以考慮用MongoDB的。

如何分庫分表

分庫分表的核心就是對數(shù)據(jù)的分片(Sharding)并相對均勻的路由在不同的庫、表中,以及分片后對數(shù)據(jù)的快速定位與檢索結(jié)果的整合。

分庫與分表可以從:垂直(縱向)和 水平(橫向)兩種緯度進行拆分。下邊我們以經(jīng)典的訂單業(yè)務(wù)舉例,看看如何拆分。

垂直拆分

1、垂直分庫

垂直分庫一般來說按照業(yè)務(wù)和功能的維度進行拆分,將不同業(yè)務(wù)數(shù)據(jù)分別放到不同的數(shù)據(jù)庫中,核心理念?專庫專用。

按業(yè)務(wù)類型對數(shù)據(jù)分離,剝離為多個數(shù)據(jù)庫,像訂單、支付、會員、積分相關(guān)等表放在對應(yīng)的訂單庫、支付庫、會員庫、積分庫。不同業(yè)務(wù)禁止跨庫直連,獲取對方業(yè)務(wù)數(shù)據(jù)一律通過API接口交互,這也是微服務(wù)拆分的一個重要依據(jù)。

垂直分庫

垂直分庫很大程度上取決于業(yè)務(wù)的劃分,但有時候業(yè)務(wù)間的劃分并不是那么清晰,比如:電商中訂單數(shù)據(jù)的拆分,其他很多業(yè)務(wù)都依賴于訂單數(shù)據(jù),有時候界線不是很好劃分。

垂直分庫把一個庫的壓力分?jǐn)偟蕉鄠€庫,提升了一些數(shù)據(jù)庫性能,但并沒有解決由于單表數(shù)據(jù)量過大導(dǎo)致的性能問題,所以就需要配合后邊的分表來解決。

2、垂直分表

垂直分表針對業(yè)務(wù)上字段比較多的大表進行的,一般是把業(yè)務(wù)寬表中比較獨立的字段,或者不常用的字段拆分到單獨的數(shù)據(jù)表中,是一種大表拆小表的模式。

例如:一張t_order訂單表上有幾十個字段,其中訂單金額相關(guān)字段計算頻繁,為了不影響訂單表t_order的性能,就可以把訂單金額相關(guān)字段拆出來單獨維護一個t_order_price_expansion擴展表,這樣每張表只存儲原表的一部分字段,通過訂單號order_no做關(guān)聯(lián),再將拆分出來的表路由到不同的庫中。

數(shù)據(jù)庫它是以行為單位將數(shù)據(jù)加載到內(nèi)存中,這樣拆分以后核心表大多是訪問頻率較高的字段,而且字段長度也都較短,因而可以加載更多數(shù)據(jù)到內(nèi)存中,減少磁盤IO,增加索引查詢的命中率,進一步提升數(shù)據(jù)庫性能。

水平拆分

上邊垂直分庫、垂直分表后還是會存在單庫、表數(shù)據(jù)量過大的問題,當(dāng)我們的應(yīng)用已經(jīng)無法在細(xì)粒度的垂直切分時,依舊存在單庫讀寫、存儲性能瓶頸,這時就要配合水平分庫、水平分表一起了。

1、水平分庫

水平分庫是把同一個表按一定規(guī)則拆分到不同的數(shù)據(jù)庫中,每個庫可以位于不同的服務(wù)器上,以此實現(xiàn)水平擴展,是一種常見的提升數(shù)據(jù)庫性能的方式。

例如:db_orde_1、db_order_2兩個數(shù)據(jù)庫內(nèi)有完全相同的t_order表,我們在訪問某一筆訂單時可以通過對訂單的訂單編號取模的方式?訂單編號 mod 2 (數(shù)據(jù)庫實例數(shù))?,指定該訂單應(yīng)該在哪個數(shù)據(jù)庫中操作。

這種方案往往能解決單庫存儲量及性能瓶頸問題,但由于同一個表被分配在不同的數(shù)據(jù)庫中,數(shù)據(jù)的訪問需要額外的路由工作,因此系統(tǒng)的復(fù)雜度也被提升了。

2、水平分表

水平分表是在同一個數(shù)據(jù)庫內(nèi),把一張大數(shù)據(jù)量的表按一定規(guī)則,切分成多個結(jié)構(gòu)完全相同表,而每個表只存原表的一部分?jǐn)?shù)據(jù)。

例如:一張t_order訂單表有900萬數(shù)據(jù),經(jīng)過水平拆分出來三個表,t_order_1、t_order_2、t_order_3,每張表存有數(shù)據(jù)300萬,以此類推。

水平分表盡管拆分了表,但子表都還是在同一個數(shù)據(jù)庫實例中,只是解決了單一表數(shù)據(jù)量過大的問題,并沒有將拆分后的表分散到不同的機器上,還在競爭同一個物理機的CPU、內(nèi)存、網(wǎng)絡(luò)IO等。要想進一步提升性能,就需要將拆分后的表分散到不同的數(shù)據(jù)庫中,達到分布式的效果。

數(shù)據(jù)存在哪個庫的表

分庫分表以后會出現(xiàn)一個問題,一張表會出現(xiàn)在多個數(shù)據(jù)庫里,到底該往哪個庫的哪個表里存呢?

上邊我們多次提到過一定規(guī)則?,其實這個規(guī)則它是一種路由算法,決定了一條數(shù)據(jù)具體應(yīng)該存在哪個數(shù)據(jù)庫的哪張表里。

常見的有?取模算法?、范圍限定算法、范圍+取模算法?、預(yù)定義算法

1、取模算法

關(guān)鍵字段取模(對hash結(jié)果取余數(shù) hash(XXX) mod N),N為數(shù)據(jù)庫實例數(shù)或子表數(shù)量)是最為常見的一種路由方式。

t_order訂單表為例,先給數(shù)據(jù)庫從 0 到 N-1進行編號,對?t_order訂單表中order_no訂單編號字段進行取模hash(order_no) mod N,得到余數(shù)i。i=0存第一個庫,i=1存第二個庫,i=2存第三個庫,以此類推。

同一筆訂單數(shù)據(jù)會落在同一個庫、表里,查詢時用相同的規(guī)則,用t_order訂單編號作為查詢條件,就能快速的定位到數(shù)據(jù)。

優(yōu)點

實現(xiàn)簡單,數(shù)據(jù)分布相對比較均勻,不易出現(xiàn)請求都打到一個庫上的情況。

缺點

取模算法對集群的伸縮支持不太友好,集群中有N個數(shù)據(jù)庫實·hash(user_id) mod N,當(dāng)某一臺機器宕機,本應(yīng)該落在該數(shù)據(jù)庫的請求就無法得到處理,這時宕掉的實例會被踢出集群。

此時機器數(shù)減少算法發(fā)生變化hash(user_id) mod N-1,同一用戶數(shù)據(jù)落在了在不同數(shù)據(jù)庫中,等這臺機器恢復(fù),用user_id作為條件查詢用戶數(shù)據(jù)就會少一部分。

2、范圍限定算法

范圍限定算法以某些范圍字段,如時間ID區(qū)拆分。

用戶表t_user被拆分成t_user_1、t_user_2、t_user_3三張表,后續(xù)將user_id范圍為1 ~ 1000w的用戶數(shù)據(jù)放入t_user_1,1000~ 2000w放入t_user_2,2000~3000w放入t_user_3,以此類推。按日期范圍劃分同理。

優(yōu)點

  • 單表數(shù)據(jù)量是可控的

  • 水平擴展簡單只需增加節(jié)點即可,無需對其他分片的數(shù)據(jù)進行遷移

缺點

  • 由于連續(xù)分片可能存在數(shù)據(jù)熱點,比如按時間字段分片時,如果某一段時間(雙11等大促)訂單驟增,存11月數(shù)據(jù)的表可能會被頻繁的讀寫,其他分片表存儲的歷史數(shù)據(jù)則很少被查詢,導(dǎo)致數(shù)據(jù)傾斜,數(shù)據(jù)庫壓力分?jǐn)偛痪鶆颉?/p>

3、范圍 + 取模算法

為了避免熱點數(shù)據(jù)的問題,我們可以對上范圍算法優(yōu)化一下

這次我們先通過范圍算法定義每個庫的用戶表t_user只存1000w數(shù)據(jù),第一個db_order_1庫存放userId從1 ~ 1000w,第二個庫1000~2000w,第三個庫2000~3000w,以此類推。

每個庫里再把用戶表t_user拆分成t_user_1、t_user_2t_user_3等,對userd進行取模路由到對應(yīng)的表中。

有效的避免數(shù)據(jù)分布不均勻的問題,數(shù)據(jù)庫水平擴展也簡單,直接添加實例無需遷移歷史數(shù)據(jù)。

4、地理位置分片

地理位置分片其實是一個更大的范圍,按城市或者地域劃分,比如華東、華北數(shù)據(jù)放在不同的分片庫、表。

5、預(yù)定義算法

預(yù)定義算法是事先已經(jīng)明確知道分庫和分表的數(shù)量,可以直接將某類數(shù)據(jù)路由到指定庫或表中,查詢的時候亦是如此。

分庫分表出來的問題

了解了上邊分庫分表的拆分方式不難發(fā)現(xiàn),相比于拆分前的單庫單表,系統(tǒng)的數(shù)據(jù)存儲架構(gòu)演變到現(xiàn)在已經(jīng)變得非常復(fù)雜??磶讉€具有代表性的問題,比如:

分頁、排序、跨節(jié)點聯(lián)合查詢

分頁、排序、聯(lián)合查詢,這些看似普通,開發(fā)中使用頻率較高的操作,在分庫分表后卻是讓人非常頭疼的問題。把分散在不同庫中表的數(shù)據(jù)查詢出來,再將所有結(jié)果進行匯總合并整理后提供給用戶。

比如:我們要查詢11、12月的訂單數(shù)據(jù),如果兩個月的數(shù)據(jù)是分散到了不同的數(shù)據(jù)庫實例,則要查詢兩個數(shù)據(jù)庫相關(guān)的數(shù)據(jù),在對數(shù)據(jù)合并排序、分頁,過程繁瑣復(fù)雜。

事務(wù)一致性

分庫分表后由于表分布在不同庫中,不可避免會帶來跨庫事務(wù)問題。后續(xù)會分別以阿里的Seata和MySQL的XA協(xié)議實現(xiàn)分布式事務(wù),用來比較各自的優(yōu)勢與不足。

全局唯一的主鍵

分庫分表后數(shù)據(jù)庫表的主鍵ID業(yè)務(wù)意義就不大了,因為無法在標(biāo)識唯一一條記錄,例如:多張表t_order_1、t_order_2的主鍵ID全部從1開始會重復(fù),此時我們需要主動為一條記錄分配一個ID,這個全局唯一的ID就叫分布式ID,發(fā)放這個ID的系統(tǒng)通常被叫發(fā)號器。

多數(shù)據(jù)庫高效治理

對多個數(shù)據(jù)庫以及庫內(nèi)大量分片表的高效治理,是非常有必要,因為像某寶這種大廠一次大促下來,訂單表可能會被拆分成成千上萬個t_order_n表,如果沒有高效的管理方案,手動建表、排查問題是一件很恐怖的事。

歷史數(shù)據(jù)遷移

分庫分表架構(gòu)落地以后,首要的問題就是如何平滑的遷移歷史數(shù)據(jù),增量數(shù)據(jù)和全量數(shù)據(jù)遷移,這又是一個比較麻煩的事情,后邊詳細(xì)講。

分庫分表架構(gòu)模式

分庫分表架構(gòu)主要有兩種模式:client客戶端模式和proxy代理模式

客戶模式

client模式指分庫分表的邏輯都在你的系統(tǒng)應(yīng)用內(nèi)部進行控制,應(yīng)用會將拆分后的SQL直連多個數(shù)據(jù)庫進行操作,然后本地進行數(shù)據(jù)的合并匯總等操作。

代理模式

proxy代理模式將應(yīng)用程序與MySQL數(shù)據(jù)庫隔離,業(yè)務(wù)方的應(yīng)用不在需要直連數(shù)據(jù)庫,而是連接proxy代理服務(wù),代理服務(wù)實現(xiàn)了MySQL的協(xié)議,對業(yè)務(wù)方來說代理服務(wù)就是數(shù)據(jù)庫,它會將SQL分發(fā)到具體的數(shù)據(jù)庫進行執(zhí)行,并返回結(jié)果。該服務(wù)內(nèi)有分庫分表的配置,根據(jù)配置自動創(chuàng)建分片表。

如何抉擇

如何選擇client模式和proxy模式,我們可以從以下幾個方面來簡單做下比較。

1、性能

性能方面client模式表現(xiàn)的稍好一些,它是直接連接MySQL執(zhí)行命令;proxy代理服務(wù)則將整個執(zhí)行鏈路延長了,應(yīng)用->代理服務(wù)->MySQL,可能導(dǎo)致性能有一些損耗,但兩者差距并不是非常大。

2、復(fù)雜度

client模式在開發(fā)使用通常引入一個jar可以;proxy代理模式則需要搭建單獨的服務(wù),有一定的維護成本,既然是服務(wù)那么就要考慮高可用,畢竟應(yīng)用的所有SQL都要通過它轉(zhuǎn)發(fā)至MySQL。

3、升級

client模式分庫分表一般是依賴基礎(chǔ)架構(gòu)團隊的Jar包,一旦有版本升級或者Bug修改,所有應(yīng)用到的項目都要跟著升級。小規(guī)模的團隊服務(wù)少升級問題不大,如果是大公司服務(wù)規(guī)模大,且涉及到跨多部門,那么升級一次成本就比較高;

proxy模式在升級方面優(yōu)勢很明顯,發(fā)布新功能或者修復(fù)Bug,只要重新部署代理服務(wù)集群即可,業(yè)務(wù)方是無感知的,但要保證發(fā)布過程中服務(wù)的可用性。

4、治理、監(jiān)控

client模式由于是內(nèi)嵌在應(yīng)用內(nèi),應(yīng)用集群部署不太方便統(tǒng)一處理;proxy模式在對SQL限流、讀寫權(quán)限控制、監(jiān)控、告警等服務(wù)治理方面更優(yōu)雅一些。


好好的系統(tǒng),為什么要分庫分表?的評論 (共 條)

分享到微博請遵守國家法律
文登市| 文安县| 稻城县| 青阳县| 罗江县| 安仁县| 新余市| 黄梅县| 连云港市| 永新县| 龙川县| 莱阳市| 大足县| 石城县| 西林县| 平阳县| 阜宁县| 乌拉特前旗| 万宁市| 杭锦后旗| 宁河县| 金塔县| 绥化市| 贡山| 长顺县| 牙克石市| 扎赉特旗| 谢通门县| 水城县| 香港 | 祁门县| 夏邑县| 建始县| 清丰县| 平和县| 通山县| 西安市| 成武县| 达拉特旗| 南江县| 湘阴县|