最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

談大數(shù)據(jù)基本概念

2020-09-30 10:35 作者:數(shù)字化技術(shù)專家  | 我要投稿

1、數(shù)據(jù)爆炸增長

隨著物聯(lián)網(wǎng)和云計算技術(shù)的發(fā)展,海量的數(shù)據(jù)以前所未有的速度從異構(gòu)數(shù)據(jù)源產(chǎn)生,這些數(shù)據(jù)源所在的領(lǐng)域有醫(yī)療健康、政府機(jī)構(gòu)、社交網(wǎng)絡(luò)、環(huán)境監(jiān)測和金融市場等。

2、海量數(shù)據(jù)丟棄,10%不到被存儲,5%不到被分析

在大數(shù)據(jù)的變革發(fā)生之前,絕大多數(shù)機(jī)構(gòu)和公司都沒有能力長期保存歸檔數(shù)據(jù),也無法高效地管理和利用大規(guī)模的數(shù)據(jù)集。實際上,現(xiàn)有的傳統(tǒng)技術(shù)能夠應(yīng)對的存儲和管理規(guī)模都是有限的。在大數(shù)據(jù)環(huán)境下,傳統(tǒng)技術(shù)缺乏可擴(kuò)展性和靈活性,其性能也無法令人滿意。當(dāng)前,針對海量的數(shù)據(jù)集,需要設(shè)計涵蓋清洗、處理、分析、加載等操作的可行性方案。業(yè)界的公司越來越意識到針對大數(shù)據(jù)的處理與分析是使企業(yè)具有競爭力的重要因素。

3. 三類定義

當(dāng)前大數(shù)據(jù)在各個領(lǐng)域的廣泛普及使得學(xué)界與業(yè)界對大數(shù)據(jù)的定義很難達(dá)成一致。不過有一點共識是,大數(shù)據(jù)不僅是指大量的數(shù)據(jù)。通過對現(xiàn)有大數(shù)據(jù)的定義進(jìn)行梳理,我們總結(jié)出三種對大數(shù)據(jù)進(jìn)行描述和理解的定義。

1)屬性型定義(attributive definition)作為大數(shù)據(jù)研究與應(yīng)用的先驅(qū),國際數(shù)據(jù)公司(International Data Corporation,IDC)在戴爾易安信(DELL EMC)公司的資助下于2011年提出了如下大數(shù)據(jù)的定義:

大數(shù)據(jù)技術(shù)描述了技術(shù)與體系結(jié)構(gòu),其設(shè)計初衷是通過實施高速的捕獲、發(fā)現(xiàn)以及分析,來經(jīng)濟(jì)性地提取大量具有廣泛類型的數(shù)據(jù)的價值。

該定義側(cè)面描述了大數(shù)據(jù)的四個顯著特征:數(shù)量、速度、多樣化和價值。由Gartner公司分析師Doug Laney總結(jié)的研究報告中給出了與上述定義類似的描述,該研究指出數(shù)據(jù)的增長所帶來的挑戰(zhàn)與機(jī)遇是三個維度的,即顯著增長的數(shù)量(Volume)、速度(Velocity)和多樣化(Variety)。盡管Doug Laney關(guān)于數(shù)據(jù)在三個維度的描述最初并不是要給大數(shù)據(jù)下定義,但包括IBM、微軟在內(nèi)的業(yè)界在其后的十年間都沿用上述“3V”模型來對大數(shù)據(jù)進(jìn)行描述。

2)比較型定義(comparative definition)Mckinsey公司2011年給出的研究報告將大數(shù)據(jù)定義為:

規(guī)模超出了典型數(shù)據(jù)庫軟件工具的捕獲、存儲、管理和分析能力的數(shù)據(jù)集。

盡管該報告沒有在具體的度量標(biāo)準(zhǔn)方面對大數(shù)據(jù)給出定義,但其引入了一個革命性的方面,即怎樣的數(shù)據(jù)集才能夠被稱為大數(shù)據(jù)。

3)架構(gòu)型定義(architectural definition)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)對大數(shù)據(jù)的描述為:

大數(shù)據(jù)是指數(shù)據(jù)的數(shù)量、獲取的速度以及數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系數(shù)據(jù)庫方法進(jìn)行有效分析的能力,需要使用具有良好可擴(kuò)展性的新型方法來對數(shù)據(jù)進(jìn)行高效的處理。


2. 5V以下是一些文獻(xiàn)中關(guān)于大數(shù)據(jù)特征的描述:

數(shù)據(jù)的規(guī)模成為問題的一部分,并且傳統(tǒng)的技術(shù)已經(jīng)沒有能力處理這樣的數(shù)據(jù)。


數(shù)據(jù)的規(guī)模迫使學(xué)界和業(yè)界不得不拋棄曾經(jīng)流行的方法而去尋找新的方法。


大數(shù)據(jù)是一個囊括了在合理時間內(nèi)對潛在的超大數(shù)據(jù)集實現(xiàn)捕獲、處理、分析和可視化的范疇,并且傳統(tǒng)的信息技術(shù)無法勝任上述要求。


大數(shù)據(jù)的核心必須包含三個關(guān)鍵的方面:數(shù)量多、速度快和多樣化,即著名的“3V”。

1)數(shù)量數(shù)據(jù)的數(shù)量又稱為數(shù)據(jù)的規(guī)模,在大數(shù)據(jù)中,其是指在進(jìn)行數(shù)據(jù)處理時所面對的超大規(guī)模的數(shù)據(jù)量。目前,海量的數(shù)據(jù)持續(xù)不斷地從千百萬設(shè)備和應(yīng)用中產(chǎn)生(例如信息通信技術(shù)、智能手機(jī)、軟件代碼、社交網(wǎng)絡(luò)、傳感器以及各類日志)。

  • McAfee公司在2012年估算:在2012年的每一天中,全球都產(chǎn)生著2.5EB的數(shù)據(jù),并且該數(shù)值約每40個月實現(xiàn)翻倍。
  • 2013年,國際數(shù)據(jù)公司(IDC)估算全球所產(chǎn)生、復(fù)制和消費(fèi)的數(shù)據(jù)已經(jīng)達(dá)到4.4ZB,并且該數(shù)值約每兩年實現(xiàn)翻倍。
  • 到2015年,全球產(chǎn)生的數(shù)據(jù)將達(dá)到8ZB。根據(jù)IDC的研究報告,全球產(chǎn)生的數(shù)據(jù)將在2020年達(dá)到40ZB。

2)速度在大數(shù)據(jù)中,數(shù)據(jù)的速度是指在進(jìn)行數(shù)據(jù)處理時所面對的具有高頻率和高實時性的數(shù)據(jù)流。高速生成的數(shù)據(jù)應(yīng)當(dāng)及時進(jìn)行處理,以便提取有用的信息和洞察潛在的價值。全球知名的折扣連鎖店沃爾瑪基于消費(fèi)者的交易每小時產(chǎn)生2.5PB的數(shù)據(jù)。視頻分享類網(wǎng)站(例如優(yōu)酷、愛奇藝等)則是大數(shù)據(jù)高頻率和高實時性特征的另一個例證。3)多樣化在大數(shù)據(jù)中,數(shù)據(jù)的多樣化是指在進(jìn)行數(shù)據(jù)處理時所面對的具有不同語法格式的數(shù)據(jù)類型。隨著物聯(lián)網(wǎng)技術(shù)與云計算技術(shù)的普及,海量的多源異構(gòu)數(shù)據(jù)從不同的數(shù)據(jù)源以不同的數(shù)據(jù)格式持續(xù)地產(chǎn)生,典型的數(shù)據(jù)源有傳感器、音頻、視頻、文檔等。海量的異構(gòu)數(shù)據(jù)形成各種各樣的數(shù)據(jù)集,這些數(shù)據(jù)集可能包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)集的屬性可能是公開或隱私的、共享或機(jī)密的、完整或不完整的,等等。隨著大數(shù)據(jù)理論的發(fā)展,更多的特征逐步被納入考慮的范圍,以便對大數(shù)據(jù)做出更好的定義,例如:

  • 想象(vision),這里的想象是指一種目的;
  • 驗證(verification),這里的驗證是指經(jīng)過處理后的數(shù)據(jù)符合特定的要求;
  • 證實(validation),這里的證實是指前述的想象成為現(xiàn)實;
  • 復(fù)雜性(complexity),這里的復(fù)雜性是指由于數(shù)據(jù)之間關(guān)系的進(jìn)化,海量數(shù)據(jù)的組織和分析均很困難;
  • 不變性(immutability),這里的不變性是指如果進(jìn)行妥善管理,那么經(jīng)過存儲的海量數(shù)據(jù)可以永久保留。

描述大數(shù)據(jù)的五個關(guān)鍵特征(即“5V”):

  • 數(shù)量(Volume)
  • 速度(Velocity)
  • 多樣化(Variety)
  • 準(zhǔn)確性(Veracity)
  • 價值(Value)

4)準(zhǔn)確性在商界,決策者通常不會完全信任從大數(shù)據(jù)中提取出的信息,而會進(jìn)一步對信息進(jìn)行加工和處理,然后做出更好的決策。如果決策者不信任輸入數(shù)據(jù),那么輸出數(shù)據(jù)也不會獲得信任,這樣的數(shù)據(jù)不會參與決策過程。隨著大數(shù)據(jù)中數(shù)據(jù)規(guī)模的日新月異和數(shù)據(jù)種類的多樣化,如何更好地度量和提升數(shù)據(jù)可信度成為一個研究熱點。

5)價值一般來說,海量的數(shù)據(jù)具有價值密度低的缺點。如果無法從數(shù)據(jù)中有效地提取出潛在的價值,那么這些數(shù)據(jù)在某種程度上就是沒用的。數(shù)據(jù)的價值是決策者最關(guān)注的方面,其需要仔細(xì)且認(rèn)真的研究。目前,已經(jīng)有大量的人力、物力和財力投入到大數(shù)據(jù)的研究和應(yīng)用中,這些投資行為都期望從海量數(shù)據(jù)中獲得有價值的內(nèi)容。但是,對于不同的機(jī)構(gòu)和不同的價值提取方法,同樣的數(shù)據(jù)集所產(chǎn)生的價值差異可能很大,即投入與產(chǎn)出并不一定成正比。因此,對大數(shù)據(jù)價值的研究需要建立更加完善的體系。


談大數(shù)據(jù)基本概念的評論 (共 條)

分享到微博請遵守國家法律
土默特左旗| 南澳县| 佳木斯市| 宜阳县| 苗栗县| 大同县| 江都市| 定日县| 苏尼特右旗| 交城县| 象州县| 曲靖市| 蒙城县| 台东县| 彰化市| 磐石市| 博野县| 宜君县| 河池市| 会泽县| 莲花县| 巫溪县| 彭泽县| 米林县| 屏边| 康保县| 安丘市| 平武县| 凭祥市| 白城市| 石渠县| 特克斯县| 汉寿县| 旌德县| 喜德县| 申扎县| 延边| 遂平县| 闽清县| 宿迁市| 繁峙县|