【課程合集】大數(shù)據(jù)博士教你大數(shù)據(jù)的可視化

數(shù)據(jù)可視化,實(shí)際上就是翻譯,

同樣也追求信達(dá)雅
信: 準(zhǔn)確的表示信息

在看別人的圖表的時(shí)候,注意它的坐標(biāo)軸起始位置以及坐標(biāo)軸的間隔是否真的和數(shù)據(jù)保持了對(duì)應(yīng)
達(dá): 以圖表上的元素盡量能夠更好的表示數(shù)據(jù)的信息
雅: 一方面指的是審美,
另一方面讓數(shù)據(jù)信息更直觀(guān)
正所謂可視化就是翻譯,
所以要求也是 信>達(dá)>雅
可以互動(dòng),但不是必要,
更需要注意配色與圖表類(lèi)型
配色的話(huà)可以查看一下相關(guān)的色彩理論,以及brewer這個(gè)包的使用
圖表類(lèi)型選擇要按照以下的步驟進(jìn)行

可視化圖表種類(lèi)


選擇新圖表的時(shí)候需要謹(jǐn)慎
因?yàn)槟阋紤]這個(gè)圖表,
大家是不是能夠理解其中的內(nèi)容
對(duì)比關(guān)系:
條形圖
條形圖的條數(shù)太多的話(huà),文字會(huì)重疊.
條形圖或者說(shuō)柱狀圖更適合用來(lái)對(duì)比而不是展現(xiàn)趨勢(shì)
如果展現(xiàn)趨勢(shì),選擇折線(xiàn)圖
雷達(dá)圖

雷達(dá)圖適合展現(xiàn)多維數(shù)據(jù), 最好多于三維
通常的用途是用來(lái)展示某種性能的好壞.
所以圖中每個(gè)軸值越大應(yīng)該是越好.
表現(xiàn)趨勢(shì)
折線(xiàn)圖:
可以把折線(xiàn)圖理解為一個(gè)沿著x軸移動(dòng)的點(diǎn)所留下的軌跡,
這意味著折線(xiàn)圖的X軸和Y軸都必須要有一個(gè)大小關(guān)系
折線(xiàn)下帶上半透明的陰影就變成了面積圖
面積圖有一種變種,堆積面積圖
堆積面積圖需要變量之間在概念上不存在重疊

分布關(guān)系
散點(diǎn)圖,
Xy軸分別代表兩個(gè)維度, 可以看出數(shù)據(jù)的相關(guān)性/分布趨勢(shì)/密集程度等等
如果散點(diǎn)圖中的每個(gè)點(diǎn)用大小來(lái)表示第3個(gè)維度的信息, 就是氣泡圖
但注意氣泡圖面臨著氣泡互相重疊以及大小失真的問(wèn)題.
所以要表示第3個(gè)維度的信息, 優(yōu)先選擇顏色
直方圖與概率密度圖
直方圖和概率密度圖都是為了顯示一維數(shù)據(jù)的概率分布
直方圖的每一個(gè)bin的大小和概率密度圖中核的大小都會(huì)影響到展示的效果
概率密度圖是通過(guò)核(kernel)方法來(lái)得到一個(gè)連續(xù)的概率密度. 你可以想象成光斑的疊加.
概率密度圖擴(kuò)展到二維數(shù)據(jù)中就會(huì)接近于等高線(xiàn)圖.
箱線(xiàn)圖 boxplot
箱線(xiàn)圖一般用作顯示單個(gè)峰的分布,
多個(gè)峰的分布,它不太好展現(xiàn)
色塊圖和熱圖都涉及三個(gè)維度
都是表現(xiàn)Z維度在xy維度上的分布情況
z如果是連續(xù)的就是熱圖,不連續(xù)的是色塊圖
表示數(shù)據(jù)構(gòu)成
使用餅圖環(huán)形圖或者是百分比柱狀圖
但是注意在表示這些圖形的時(shí)候,不能選用的分類(lèi)太多,6類(lèi)已經(jīng)是很高了
表示數(shù)據(jù)間關(guān)系
為了表示數(shù)據(jù)間的關(guān)系,也不僅要有數(shù)據(jù),而且還要有數(shù)據(jù)項(xiàng)之間的關(guān)系信息
其中sankey圖它可以用來(lái)表示某種"流", 水流的流.
數(shù)據(jù)是有方向的,而且不可壓縮
網(wǎng)頁(yè)繪圖的基本原理
Html5包含三個(gè)部分,一個(gè)是html語(yǔ)言,樣式表CSS以及JavaScript
Css指定了網(wǎng)頁(yè)元素的格式,而JavaScript可以實(shí)現(xiàn)網(wǎng)頁(yè)的交互
Html5支持三種繪圖,
canvas -- 位圖
svg -- 矢量圖
webGL --- 三維繪圖.
SVG高保真,但是數(shù)量較多時(shí)候拖慢網(wǎng)頁(yè)速度.
通過(guò)JavaScript可以操縱這些繪圖元素, 從而實(shí)現(xiàn)動(dòng)畫(huà).

實(shí)際的數(shù)據(jù)可視化項(xiàng)目的兩種思路:


幾個(gè)大廠(chǎng)出品的在線(xiàn)可視化工具
sanddance 微軟出品, 但它不能顯示圖地圖數(shù)據(jù)
kepler 擅長(zhǎng)顯示地圖數(shù)據(jù). 但它無(wú)法顯示時(shí)間數(shù)據(jù)
mobmap 功能比較強(qiáng), 但是是日本東京大學(xué)研發(fā), 需要科學(xué)上網(wǎng)
echarts 是一個(gè)JavaScript的繪圖庫(kù),
在實(shí)踐中,他最好要和Python來(lái)協(xié)同工作.