最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

大數(shù)據(jù)湖最佳實(shí)踐

2023-07-07 23:27 作者:沒有名字如何行走江湖  | 我要投稿

鏈接:https://pan.baidu.com/s/1ZBReFztLaJhhrMxsta7G5g?pwd=m9g2?

提取碼:m9g2

l 數(shù)據(jù)倉庫、大數(shù)據(jù)、數(shù)據(jù)科學(xué)的簡單介紹。

l 了解企業(yè)建立數(shù)據(jù)湖的各種途徑。

l 探索如何構(gòu)建自助服務(wù)模型,以及如何讓分析師便捷訪問數(shù)據(jù)的最佳實(shí)踐。

l 使用不同的方法來構(gòu)建數(shù)據(jù)湖。

l 了解不同行業(yè)專家實(shí)現(xiàn)數(shù)據(jù)湖的方法。



作者簡介


Alex Gorelik是Waterline Data的首席技術(shù)官和創(chuàng)始人,也是三家初創(chuàng)公司的創(chuàng)始人。他曾經(jīng)擔(dān)任Informatica的數(shù)據(jù)質(zhì)量部經(jīng)理,負(fù)責(zé)管理公司的平臺和數(shù)據(jù)集成技術(shù)。此外,他還曾是IBM杰出的工程師,也是Exeros和Acta Technology的聯(lián)合創(chuàng)始人、首席技術(shù)官和工程副總裁。


精彩書評


“Alex是位富有遠(yuǎn)見的數(shù)據(jù)人。他把他的實(shí)踐見解融入到本書,探討了過渡到數(shù)據(jù)驅(qū)動型企業(yè)涉及的技術(shù)因素、對公司整體的影響以及由此產(chǎn)生的對業(yè)務(wù)的影響。”

——Keyur Desai

TD Ameritrade首席數(shù)據(jù)官




“本書很好地闡述了各類數(shù)據(jù)湖的架構(gòu),包括它們提供了什么價(jià)值,帶來了哪些挑戰(zhàn),以及如何應(yīng)對這些挑戰(zhàn)?!?/p>

——Jari Koister

FICO產(chǎn)品和技術(shù)副總裁,

加州大學(xué)伯克利分校的數(shù)據(jù)科學(xué)教授


目錄

前言 1

第1 章 數(shù)據(jù)湖概述 7

數(shù)據(jù)湖的成熟度 9

數(shù)據(jù)水洼 11

數(shù)據(jù)池 12

創(chuàng)建成功的數(shù)據(jù)湖 12

適合的平臺 13

適合的數(shù)據(jù) 14

適合的界面 16

數(shù)據(jù)沼澤 18

成功實(shí)施數(shù)據(jù)湖的路線圖 20

建立數(shù)據(jù)湖 20

規(guī)劃數(shù)據(jù)湖 21

構(gòu)建自助服務(wù)的數(shù)據(jù)湖 23

構(gòu)建數(shù)據(jù)湖 28

云上數(shù)據(jù)湖 29

邏輯數(shù)據(jù)湖 29

小結(jié) 34

第2 章 歷史背景 35

數(shù)據(jù)自助服務(wù)驅(qū)動——數(shù)據(jù)庫的誕生 36

分析必要性驅(qū)動——數(shù)據(jù)倉庫的誕生 39

數(shù)據(jù)倉庫生態(tài)系統(tǒng) 40

存儲和查詢數(shù)據(jù) 41

加載數(shù)據(jù)——數(shù)據(jù)集成工具 47

組織和管理數(shù)據(jù) 51

消費(fèi)數(shù)據(jù) 57

小結(jié) 58

第3 章 大數(shù)據(jù)和數(shù)據(jù)科學(xué)概述 59

Hadoop 引領(lǐng)大數(shù)據(jù)的歷史性轉(zhuǎn)變 60

Hadoop 文件系統(tǒng) 60

MapReduce 作業(yè)中計(jì)算和存儲如何交互 61

Schema on Read 63

Hadoop 項(xiàng)目 64

數(shù)據(jù)科學(xué) 65

你的分析機(jī)構(gòu)應(yīng)該關(guān)注什么? 67

機(jī)器學(xué)習(xí) 71

可解釋性 72

變更管理 73

小結(jié) 74

第4 章 建立數(shù)據(jù)湖 75

為什么是Hadoop 75

防止數(shù)據(jù)水洼擴(kuò)散 78

利用大數(shù)據(jù)的優(yōu)勢 79

以數(shù)據(jù)科學(xué)為先導(dǎo) 80

策略1: 遷移已有功能 83

策略2: 為新項(xiàng)目建立數(shù)據(jù)湖 85

策略3: 建立數(shù)據(jù)治理中心 85

哪種策略最適合你? 86

小結(jié) 88

第5 章 從數(shù)據(jù)池/ 大數(shù)據(jù)倉庫到數(shù)據(jù)湖 89

數(shù)據(jù)倉庫的基本功能 90

用于分析的維度模型 91

整合不同源的數(shù)據(jù) 92

使用緩慢變化維保存歷史記錄 93

數(shù)據(jù)倉庫作為歷史庫的局限性 93

遷移至數(shù)據(jù)池 94

數(shù)據(jù)池中保存歷史數(shù)據(jù) 94

在數(shù)據(jù)池中使用緩慢變化維 96

數(shù)據(jù)池演化為數(shù)據(jù)湖——加載數(shù)據(jù)倉庫中未包含的數(shù)據(jù) 98

原始數(shù)據(jù) 98

外部數(shù)據(jù) 99

IoT 與其他流式數(shù)據(jù) 102

實(shí)時(shí)數(shù)據(jù)湖 103

Lambda 架構(gòu) 105

數(shù)據(jù)轉(zhuǎn)換 106

目標(biāo)系統(tǒng) 108

數(shù)據(jù)倉庫 109

業(yè)務(wù)數(shù)據(jù)存儲 109

實(shí)時(shí)應(yīng)用和數(shù)據(jù)產(chǎn)品 110

小結(jié) 111

第6 章 自助服務(wù)優(yōu)化 112

自助服務(wù)起源 113

業(yè)務(wù)分析師 115

發(fā)現(xiàn)和理解數(shù)據(jù)——企業(yè)數(shù)據(jù)歸檔 116

建立信任 119

數(shù)據(jù)預(yù)置 126

為分析準(zhǔn)備數(shù)據(jù) 128

數(shù)據(jù)湖數(shù)據(jù)整理 129

用Hadoop 來準(zhǔn)備數(shù)據(jù) 129

數(shù)據(jù)預(yù)處理的常見案例 130

分析和可視化 133

自助式商業(yè)智能的新世界 133

新的分析工作流 134

門衛(wèi)向店主的角色轉(zhuǎn)變 136

管理自助服務(wù) 137

小結(jié) 137

第7 章 數(shù)據(jù)湖架構(gòu) 139

規(guī)劃數(shù)據(jù)湖 139

原始區(qū) 141

產(chǎn)品區(qū) 142

工作區(qū) 144

敏感區(qū) 145

多數(shù)據(jù)湖 146

保持各數(shù)據(jù)湖獨(dú)立的優(yōu)勢 147

合并多數(shù)據(jù)湖的優(yōu)勢 147

云上數(shù)據(jù)湖 148

虛擬數(shù)據(jù)湖 151

數(shù)據(jù)聯(lián)邦 151

大數(shù)據(jù)虛擬化 152

消除冗余 154

小結(jié) 156

第8 章 數(shù)據(jù)湖元數(shù)據(jù) 157

組織數(shù)據(jù) 157

技術(shù)元數(shù)據(jù) 159

業(yè)務(wù)元數(shù)據(jù) 164

打標(biāo) 166

自動編目 167

邏輯數(shù)據(jù)管理 169

敏感數(shù)據(jù)管理和訪問控制 169

數(shù)據(jù)質(zhì)量 170

連接分散的數(shù)據(jù) 172

建立血緣關(guān)系 174

數(shù)據(jù)預(yù)置 176

創(chuàng)建目錄的工具 176

工具對比 177

數(shù)據(jù)洋 178

小結(jié) 179

第9 章 數(shù)據(jù)訪問控制 180

授權(quán)與訪問控制 181

基于標(biāo)簽的控制策略 182

數(shù)據(jù)脫敏 186

數(shù)據(jù)主權(quán)與法規(guī) 189

自助服務(wù)訪問管理 191

預(yù)置數(shù)據(jù) 196

小結(jié) 204

第10 章 行業(yè)案例 205

金融服務(wù)大數(shù)據(jù) 206

消費(fèi)者、數(shù)字化和數(shù)據(jù)正在改變我們所熟知的金融行業(yè) 206

拯救銀行 208

新數(shù)據(jù)提供新機(jī)遇 212

使用數(shù)據(jù)湖的關(guān)鍵過程 215

數(shù)據(jù)湖為金融服務(wù)領(lǐng)域帶來的價(jià)值 218

保險(xiǎn)行業(yè)中的數(shù)據(jù)湖 220

智慧城市 222

醫(yī)療大數(shù)據(jù) 224

作者介紹 227

封面介紹 227


查看全部↓

前言/序言

前言

近些年來,很多企業(yè)開始嘗試使用大數(shù)據(jù)和云技術(shù)來構(gòu)建數(shù)據(jù)湖(data lake),用于支持?jǐn)?shù)據(jù)驅(qū)動的企業(yè)文化和決策,但這些項(xiàng)目經(jīng)常會陷入停滯甚至失敗。因?yàn)楹芏嗷ヂ?lián)網(wǎng)公司的工作方式未必適合這些企業(yè),而市面上又沒有全面實(shí)用的指南來指導(dǎo)大家如何進(jìn)行相應(yīng)的調(diào)整。在這個背景下我寫了這本書,目的是希望能在這方面提供幫助。

我曾在IBM 和Informatica(主要的數(shù)據(jù)技術(shù)供應(yīng)商)任管理職務(wù),在Menlo Ventures(一家領(lǐng)先的VC 公司)擔(dān)任常駐企業(yè)家,目前是Waterline(一家大數(shù)據(jù)初創(chuàng)企業(yè))的創(chuàng)始人兼CTO,在此期間我有幸能和上百位專家、有想法的人、行業(yè)分析師以及一線從業(yè)者討論關(guān)于成功建立數(shù)據(jù)湖、培養(yǎng)數(shù)據(jù)驅(qū)動文化的挑戰(zhàn)。本書正是我對各個行業(yè)(從社交媒體到銀行和政府機(jī)構(gòu))和各種角色(從首席數(shù)據(jù)官和其他IT 主管到數(shù)據(jù)架構(gòu)師、數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師)將會遇到的不同場景及其最佳實(shí)踐的總結(jié)。


大數(shù)據(jù)湖最佳實(shí)踐的評論 (共 條)

分享到微博請遵守國家法律
宣武区| 鹤庆县| 九江县| 凤山市| 隆回县| 荃湾区| 大名县| 普格县| 安福县| 万全县| 乐东| 胶州市| 涿州市| 长乐市| 宾川县| 南宫市| 上饶县| 芦山县| 宣恩县| 开江县| 通道| 罗定市| 桐乡市| 油尖旺区| 墨脱县| 静宁县| 宁南县| 志丹县| 包头市| 苏尼特右旗| 涿鹿县| 大连市| 砚山县| 临桂县| 新龙县| 招远市| 阿拉善左旗| 嘉兴市| 上犹县| 广饶县| 买车|