最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Hadoop數(shù)據(jù)倉(cāng)庫(kù)的主要特征有哪些?

2023-06-01 10:51 作者:云和數(shù)據(jù)何老師  | 我要投稿


數(shù)據(jù)倉(cāng)庫(kù)(英語(yǔ):Data Warehouse,簡(jiǎn)稱數(shù)倉(cāng)、DW),是一個(gè)用于存儲(chǔ)、分析、報(bào)告的數(shù)據(jù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,分析結(jié)果為企業(yè)提供決策支持(Decision Support)。

數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來(lái)源于不同外部系統(tǒng); 同時(shí)數(shù)據(jù)倉(cāng)庫(kù)自身也不需要“消費(fèi)”任何的數(shù)據(jù),其結(jié)果開放給各個(gè)外部應(yīng)用使用。

Hadoop數(shù)據(jù)倉(cāng)庫(kù)的主要特征有面向主題性、集成性、非易失性和時(shí)變性,接下來(lái)對(duì)這四個(gè)特性做詳細(xì)介紹。

面向主題性(Subject-Oriented)

主題是一個(gè)抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。

傳統(tǒng)OLTP系統(tǒng)對(duì)數(shù)據(jù)的劃分并不適用于決策分析。而基于主題組織的數(shù)據(jù)則不同,它們被劃分為各自獨(dú)立的領(lǐng)域,每個(gè)領(lǐng)域有各自的邏輯內(nèi)涵但互不交叉,在抽象層次上對(duì)數(shù)據(jù)進(jìn)行完整、一致和準(zhǔn)確的描述。

集成性(Integrated)

主題相關(guān)的數(shù)據(jù)通常會(huì)分布在多個(gè)操作型系統(tǒng)中,彼此分散、獨(dú)立、異構(gòu)。因此在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然要經(jīng)過(guò)統(tǒng)一與綜合,對(duì)數(shù)據(jù)進(jìn)行抽取、清理、轉(zhuǎn)換和匯總,這一步是數(shù)據(jù)倉(cāng)庫(kù)

建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作有: 要統(tǒng)一源數(shù)據(jù)中所有矛盾之處;如字段的同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不一致等等。

進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫(kù)抽取數(shù)據(jù)時(shí)生成,但許多是在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部生成的,即進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后進(jìn)行綜合生成的。

下圖說(shuō)明了保險(xiǎn)公司綜合數(shù)據(jù)的簡(jiǎn)單處理過(guò)程,其中數(shù)據(jù)倉(cāng)庫(kù)中與“承?!敝黝}有關(guān)的數(shù)據(jù)來(lái)自于多個(gè)不同的操作 型系統(tǒng)。

這些系統(tǒng)內(nèi)部數(shù)據(jù)的命名可能不同,數(shù)據(jù)格式也可能不同。把不同來(lái)源的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)之前,需要去除這些不一致。

非易失性、非異變性(Non-Volatile)

數(shù)據(jù)倉(cāng)庫(kù)是分析數(shù)據(jù)的平臺(tái),而不是創(chuàng)造數(shù)據(jù)的平臺(tái)。我們是通過(guò)數(shù)倉(cāng)去分析數(shù)據(jù)中的規(guī)律,而不是去創(chuàng)造修改其中的規(guī)律。因此數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后,它便穩(wěn)定且不會(huì)改變。

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)反映的是一段相當(dāng)長(zhǎng)的時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,數(shù)據(jù)倉(cāng)庫(kù)的用戶對(duì)數(shù)據(jù)的操作大多是數(shù)據(jù)查詢或比較復(fù)雜的挖掘,一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下被較長(zhǎng)時(shí)間保留。

數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少。

時(shí)變性(Time-Variant)

數(shù)據(jù)倉(cāng)庫(kù)包含各種粒度的歷史數(shù)據(jù),數(shù)據(jù)可能與某個(gè)特定日期、星期、月份、季度或者年份有關(guān)。當(dāng)業(yè)務(wù)變化后會(huì)失去時(shí)效性。因此數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)需要隨著時(shí)間更新,以適應(yīng)決策的需要。

從這個(gè)角度講,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是一個(gè)項(xiàng)目,更是一個(gè)過(guò)程。


Hadoop數(shù)據(jù)倉(cāng)庫(kù)的主要特征有哪些?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
厦门市| 元谋县| 宁陵县| 桐庐县| 那坡县| 新蔡县| 佛学| 犍为县| 藁城市| 广汉市| 三江| 海丰县| 鄂托克旗| 吉隆县| 通化市| 宁陵县| 阿拉尔市| 阿鲁科尔沁旗| 安化县| 时尚| 会昌县| 全南县| 丘北县| 长武县| 博乐市| 武清区| 平阳县| 西峡县| 井研县| 宁乡县| 文山县| 偏关县| 平度市| 四会市| 麻栗坡县| 桦南县| 兴化市| 嘉善县| 崇仁县| 靖远县| 英吉沙县|