從引進(jìn)到自研再到開源融合,這10年騰訊大數(shù)據(jù)平臺(tái)經(jīng)歷了什么
3000米高空,一架民航客機(jī)拖著冒煙的機(jī)翼,在空中劃出兩條黑線。不遠(yuǎn)處,13名乘客被卷出機(jī)艙,生命垂危。
此刻,不遠(yuǎn)處的老賈(鋼鐵俠搭載的智能助手)通過大數(shù)據(jù)算法得出上百個(gè)解決方案,又將其一一排除。
突然,鎧甲啟動(dòng)制動(dòng),一個(gè)人影開始在空中踱步,1、2、3......眨眼間,13名乘客全數(shù)獲救,整個(gè)過程剛好30秒。
《鋼鐵俠3》中,空難救援的片段堪稱經(jīng)典。鋼鐵俠通過授權(quán)AI,使用大數(shù)據(jù)、云計(jì)算等技術(shù)實(shí)現(xiàn)在1/30s做出準(zhǔn)確決策。
電影中展示的極端情況,激起我們對這類技術(shù)的好奇心?,F(xiàn)實(shí)生活中,大數(shù)據(jù)、云計(jì)算等技術(shù)的迭代、融合和落地更是影響著上層應(yīng)用(企業(yè)端)的方方面面。

騰訊云副總裁、騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣杰
11月6日,雷鋒網(wǎng)應(yīng)邀參加了騰訊舉辦的Techo開發(fā)者大會(huì)。期間,騰訊云副總裁、騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣杰就騰訊大數(shù)據(jù)平臺(tái)演進(jìn)歷程、騰訊大數(shù)據(jù)平臺(tái)發(fā)展方向以及AI、云技術(shù)的融合使用進(jìn)行分享。
日數(shù)據(jù)計(jì)算量超30萬億
騰訊業(yè)務(wù)部門的資源和大數(shù)據(jù)平臺(tái)機(jī)器資源的結(jié)合,形成大數(shù)據(jù)全平臺(tái)算力。
蔣杰透露,截止目前,該算力資源池目前已有超過20萬臺(tái)的規(guī)模,每天實(shí)時(shí)數(shù)據(jù)計(jì)算超過30萬億條,而這樣的成果并非一日得來。10年間,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展一共經(jīng)歷三個(gè)階段:
1、離線計(jì)算
2009年1月,騰訊搭建起第一個(gè)Hadoop集群,開始做數(shù)據(jù)規(guī)模化。
這是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(簡稱HDFS)。
HDFS有高容錯(cuò)性的特點(diǎn),適于設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。
HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),而MapReduce則為海量的數(shù)據(jù)提供了算力。
2、實(shí)時(shí)計(jì)算
2012年,移動(dòng)互聯(lián)網(wǎng)爆發(fā),騰訊大數(shù)據(jù)平臺(tái)發(fā)展進(jìn)入第二階段——從Hadoop轉(zhuǎn)向Spark和Storm體系。
在吸收開源技術(shù)的基礎(chǔ)上,該平臺(tái)結(jié)合業(yè)務(wù)需求進(jìn)行了重寫。期間,騰訊開始探索流式計(jì)算、秒級采集系統(tǒng)的建設(shè),并構(gòu)建企業(yè)級的實(shí)時(shí)數(shù)據(jù)分析體系。
大數(shù)據(jù)平臺(tái)的在線分析和實(shí)時(shí)計(jì)算功能在實(shí)時(shí)報(bào)表、實(shí)時(shí)查詢、實(shí)時(shí)監(jiān)控等諸多場景下得以應(yīng)用。
3、機(jī)器計(jì)算
2015年至今,為了支持業(yè)務(wù)數(shù)據(jù)挖掘的需求,開始主要建設(shè)機(jī)器學(xué)習(xí)平臺(tái)。從數(shù)據(jù)分析到數(shù)據(jù)挖掘的轉(zhuǎn)變,是大數(shù)據(jù)平臺(tái)“智能化”的體現(xiàn)。
2016年,騰訊自研機(jī)器學(xué)習(xí)平臺(tái)Angel,專攻復(fù)雜計(jì)算場景,可進(jìn)行大規(guī)模的數(shù)據(jù)訓(xùn)練,支撐內(nèi)容推薦、廣告推薦等AI應(yīng)用場景。
蔣杰稱,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展,是一個(gè)從引進(jìn)到自研、從離線到實(shí)時(shí)、從分析計(jì)算到人工智能的全維度的演進(jìn)歷程。隨著資源管理平臺(tái)核心TKE和分布式數(shù)據(jù)庫TBase正式對外開源,與開發(fā)計(jì)算平臺(tái)TDW、全棧機(jī)器學(xué)習(xí)平臺(tái)Angel、開源實(shí)時(shí)數(shù)據(jù)采集平臺(tái)TubeMQ一起構(gòu)成騰訊大數(shù)據(jù)開源陣營,證實(shí)了騰訊大數(shù)據(jù)平臺(tái)從開源中來,在具備自主研發(fā)能力后積極推動(dòng)開源,回饋產(chǎn)業(yè)。
大數(shù)據(jù)平臺(tái)新方向:融合
當(dāng)談到發(fā)展方向時(shí),蔣杰重點(diǎn)強(qiáng)調(diào)了“融合”二字。在他看來,騰訊大數(shù)據(jù)平臺(tái)正向著這三個(gè)特點(diǎn)進(jìn)行迭代:
1、批流融合,批量計(jì)算、實(shí)時(shí)計(jì)算從分離,到SQL層面的融合,再到底層計(jì)算引擎層面、存儲(chǔ)層面的多方面技術(shù)融合;
2、ABC融合,即人工智能、大數(shù)據(jù)和云的融合,前兩者天生就應(yīng)該綁在一起的,騰訊自研的機(jī)器學(xué)習(xí)平臺(tái)Angel就是一個(gè)融合的案例,Angel目前已經(jīng)實(shí)現(xiàn)了預(yù)處理到數(shù)據(jù)訓(xùn)練融合,當(dāng)把整個(gè)體系能搬在云上后,即實(shí)現(xiàn)ABC的真正融合;
3、數(shù)據(jù)湖,實(shí)現(xiàn)跨IDC、跨平臺(tái)、跨異構(gòu)數(shù)據(jù)源的數(shù)據(jù)共享,通過聯(lián)邦學(xué)習(xí)來解決數(shù)據(jù)共享中存在的數(shù)據(jù)安全和隱私的問題。
技術(shù)的發(fā)展,并不總是一帆風(fēng)順的。蔣杰表示,在經(jīng)歷大數(shù)據(jù)平臺(tái)發(fā)展的階段中,走過的坑可謂只多不少。
在資源調(diào)度領(lǐng)域,原生Hadoop的可承載規(guī)模較小,這就意味著需要自研調(diào)度器。通過自研調(diào)度器,騰訊在2014年讓Hadoop單集群規(guī)模達(dá)到8800臺(tái),目前超過4萬臺(tái)。解決完離線規(guī)模的問題以后,騰訊大數(shù)據(jù)團(tuán)隊(duì)再度面臨解決在線資源問題。他們需要實(shí)現(xiàn)在線平臺(tái)和離線平臺(tái)的混合部署,這個(gè)過程需要更好的資源隔離,并且需要容器具備虛擬機(jī)一樣的隔離能力。同時(shí),還要獲得在線業(yè)務(wù)的優(yōu)先調(diào)度能力,以提高在線資源率。
在數(shù)據(jù)采集方面,騰訊大數(shù)據(jù)團(tuán)隊(duì)在開始階段主要引入和使用開源軟件,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)重復(fù)和數(shù)據(jù)丟包問題,后來自研了TubeMQ來解決,從2013年到目前,該平臺(tái)數(shù)據(jù)規(guī)模從百億到35萬億,翻了幾千倍。10萬億規(guī)模的數(shù)據(jù)消費(fèi)存在延時(shí)問題,TubeMQ要在如此大規(guī)模之下達(dá)到平均5毫秒的延時(shí)要求,他們采取軟硬結(jié)合的技術(shù)來解決。
在數(shù)據(jù)處理方面,騰訊要以毫秒級的速度對數(shù)據(jù)中心里分布在不同的國家、不同的存儲(chǔ)系統(tǒng)、不同的集群的異構(gòu)數(shù)據(jù)進(jìn)行快速處理,漂移計(jì)算SuperSQL解決方案應(yīng)運(yùn)而生。SuperSQL通過智能CBO優(yōu)化器(基于成本的優(yōu)化),將計(jì)算下推到分布在各地的異構(gòu)數(shù)據(jù)源,實(shí)現(xiàn)高效的異構(gòu)數(shù)據(jù)分析,使得數(shù)據(jù)分析過程的整個(gè)性能表現(xiàn)比傳統(tǒng)處理方式高出26倍,特別是針對海量數(shù)據(jù)情況下,這樣的解決方案優(yōu)勢也就越發(fā)明顯。
最后的難點(diǎn),是騰訊面臨著萬億規(guī)模的大數(shù)據(jù)訓(xùn)練需求。最開始,他們的數(shù)據(jù)訓(xùn)練需求來源于廣告業(yè)務(wù),他們使用Spark來構(gòu)建數(shù)據(jù)訓(xùn)練體系,但只能支持千萬級別維度的訓(xùn)練。因此他們自研高性能的機(jī)器學(xué)習(xí)平臺(tái)Angel來解決,從最開始Anlge支持十億維度,逐步提升到千億。目前,Angel平臺(tái)的訓(xùn)練量級已經(jīng)從千億擴(kuò)增到萬億。
10年間,走過的坑有多深,只有騰訊大數(shù)據(jù)團(tuán)隊(duì)知曉。而他們,把這些都搬上云,同時(shí),他們從2014年起就對外開源,希望為同類廠商及廣大開發(fā)者提供可行性的解決方案。
踩過的坑,別人就別再踩了
蔣杰稱,騰訊大數(shù)據(jù)平臺(tái)的底層技術(shù)本源自于開源,通過發(fā)展、迭代,再以開源的方式回饋社區(qū)是最好的選擇。
目前,騰訊云已經(jīng)提供了對外開放的能力,其中包括存儲(chǔ)網(wǎng)絡(luò)、數(shù)據(jù)庫到上層整個(gè)大數(shù)據(jù)平臺(tái)、機(jī)器學(xué)習(xí)平臺(tái),到上層服務(wù)于SAAS、語音NLP的整個(gè)體系。通過云上的產(chǎn)品,企業(yè)可以在沒有專業(yè)大數(shù)據(jù)和AI人才的前提下進(jìn)行大數(shù)據(jù)的各項(xiàng)分析。
雷鋒網(wǎng)了解到,2014年,騰訊的第一代開發(fā)計(jì)算平臺(tái)TDW開源,到2017年第三代的計(jì)算平臺(tái)Angel也已經(jīng)開源,該平臺(tái)已經(jīng)捐給Linux基金會(huì)。到今年9月份,騰訊開源了實(shí)時(shí)數(shù)據(jù)采集平臺(tái)TubeMQ,并將其捐獻(xiàn)給Apache基金會(huì)。
會(huì)議當(dāng)天,蔣杰宣布,資源管理容器平臺(tái)TKE和分布式數(shù)據(jù)庫TBase開源,隨著在大數(shù)據(jù)開源領(lǐng)域的開源逐步加速,騰訊正在成為中國大數(shù)據(jù)領(lǐng)域開源最全面的廠商之一。