Apache Pulsar 在科大訊飛的 SRE 實踐


[03:15](https://www.bilibili.com/video/BV15W4y1t7Ma#t=195.945649)
站在 SRE 角度,服務(wù)保障的一些難點,以及高效 SRE 的迫切性。
高效 SRE 的迫切性需求:
- 業(yè)務(wù)線太多(50+),需要 梯級保障
- 端對端的消息寫入及數(shù)據(jù)同步的延遲
- 業(yè)務(wù)接入 MQ 的流程及規(guī)范化
[05:38](https://www.bilibili.com/video/BV15W4y1t7Ma#t=338.217629)
pulsar 在 科大訊飛的演進(jìn)
為什么選擇 pulsar?
- 業(yè)務(wù)收斂,將多個小集群的流量匯聚到 pulsar
- 較少運維工作量
- 存算分離
- 多租戶
- geo-replication
- 多語言sdk
1. 調(diào)研綜述
2. -> 壓測 (實際流量規(guī)劃)-> 性能調(diào)優(yōu)(硬件,架構(gòu),配置)
3. -> 上線
[08:19](https://www.bilibili.com/video/BV15W4y1t7Ma#t=499.481062)
服務(wù)保障體系
服務(wù)分級保障
級別 可用性 全年時間
level-1:99.99% 0.876h
level-2:99.95% 4.38h
level-3: 99.9% 8.76h
level-4: 99.5% 43.8h
測算周期:季度
測算方法:
可用性 = (服務(wù)總時長-累計影響時長)/ 服務(wù)總時長
數(shù)據(jù)來源:
paas 監(jiān)控系統(tǒng)?
SRE 保障體系
