最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

大數(shù)據(jù)還能火多久?

2020-08-10 15:37 作者:自學(xué)Python的小姐姐呀  | 我要投稿

很多人有疑問大數(shù)據(jù)還能火多久?大數(shù)據(jù)都是包含什么?


我感覺很多朋友,對“大數(shù)據(jù)”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”等概念挺暈的,沒有感官的認(rèn)識,這里,我簡單說一下:

“大數(shù)據(jù)”、“人工智能”、“機(jī)器學(xué)習(xí)”、“神經(jīng)網(wǎng)絡(luò)”、“深度學(xué)習(xí)”。這幾個詞往往摻雜在一起,讓人不知所云,這里我簡單說一下,不求細(xì)節(jié)上100%準(zhǔn)確,只求能給各位一個感官上的印象,明白說起這幾詞時,通常都是說什么。

首先,“人工智能”這個詞。大家說,什么是人工智能?每個人在自己心里,都有一個特定的人工智能定義。有人認(rèn)為,老版《星際迷航》里“Datas上?!边@個東西叫人工智能;有人認(rèn)為《機(jī)器公敵》里機(jī)器人應(yīng)該叫人工智能;有人認(rèn)為電影異形里的“大衛(wèi)”,這么個東西叫人工智能。近一點(diǎn)的,有人認(rèn)為谷歌開發(fā)的下圍棋的系統(tǒng)“AlphaGo”,很吊,這玩意是人工智能;谷歌大腦能通過自己看視頻,自動識別出貓,這就人工智能了;還有公司,我們通過“人工智能”干了XXXX。。。。。。因此,可以看出,這個詞大的沒邊,因此,真追究起來,誰要說這個詞,除裝逼外,你就當(dāng)他什么都沒說就行了。

當(dāng)前,“大數(shù)據(jù)”這個詞,也跟“人工智能”這個詞一樣,大的沒邊,虛無飄渺的沒邊,誰要是說這個詞而不說具體的東西,你也就當(dāng)他什么都沒說就好了。

回過頭來,我們再看“人工智能”這個詞。究竟什么是人工智能?計算機(jī)的神級人物圖靈給出了“圖靈測試”,定義了人工智能——圖靈測試(The Turing test)由艾倫·麥席森·圖靈發(fā)明,指測試者與被測試者(一個人和一臺機(jī)器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問,進(jìn)行多次測試后,如果有超過30%的測試者不能確定出被測試者是人還是機(jī)器,那么這臺機(jī)器就通過了測試,并被認(rèn)為具有人類智能。(摘自百度百科)

上面,圖靈神人說神話,凡人聽不懂。針對“人工智能”,用人話講,如果,某個東西,具有了“學(xué)習(xí)”、“分類”、“預(yù)測”能力,我們就認(rèn)為這個東西是智能的。比如,我們說人。我們說諸葛亮,料事如神(預(yù)測能力強(qiáng))、神機(jī)妙算(“分類”強(qiáng))。。。因此,諸葛亮很智能。

其實,現(xiàn)實中很多問題,都可以轉(zhuǎn)化為分類問題和回歸問題,如何即“準(zhǔn)”又“穩(wěn)”的把事物分類,是我們追求。比如,我們根據(jù)一系列指標(biāo),把一個妹子分類為“漂亮”、“不漂亮”;把某件事根據(jù)一系列指標(biāo),分為“可以干”、“不可以干”;把某個人,分為“人品好,可以交”、“人渣,不可交”;這類就是二分類問題。也有多分類問題,比如,把一篇文章,分類到“財經(jīng)新聞”、“娛樂八卦”、“武俠小說”、“黃色小說”。。。。等等多個類目下的一類中。

因此,為了給編個有“智能”的軟件,賦予它分類能力呢。簡單,用編程語言語言里的判斷語句都能行:

If XXX :

OOOO

elif XXXXX :

oooooo

else:

OOOOO

各位看官也許會笑,這TMD算哪門子的智能。但是,在現(xiàn)實中,就這樣用編程語言的特性,編出來的軟件,在很多不懂計算機(jī)父輩們眼中,就很智能,就能把他們鎮(zhèn)住。。。。。

當(dāng)然,這么low的方案,計算機(jī)的神級人物們,是不屑的。畢竟,現(xiàn)實太復(fù)雜,對這個復(fù)雜的現(xiàn)實建模,對復(fù)雜的事物分類,豈能是幾個判斷語句所能夠描述的。所以,大神們,搞出來很多算法策略來搞這件事。這下算法,主流的也就那么多,比如說:決策樹算法、隨機(jī)森林算法、邏輯回歸、SVM、樸素貝葉斯、K最近鄰算法、K均值算法、Adaboost 算法、神經(jīng)網(wǎng)絡(luò)算法、馬爾可夫算法,還有最近火的“深度學(xué)習(xí)”算法、增強(qiáng)對抗網(wǎng)絡(luò)算法。。。等等。這些算都叫“機(jī)器學(xué)習(xí)”算法。

講到這里,各位看官,應(yīng)該對我們經(jīng)常講的“人工智能”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”,這些虛無縹緲的詞大概是什么意思,有個感官的認(rèn)識了。

好了,現(xiàn)在我們討論“人工智能”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”等等這些詞時,具體就討論這些算法就行了,那些虛無縹緲的概念,留給裝逼的人、想要吸引投資的人去說吧。

從總體理論方向來說,來說,這些算法,大體上可分為兩類,“神經(jīng)網(wǎng)絡(luò)”算法和“深度學(xué)習(xí)”算法,算作一類,其它的算法作為另一類。

但是,不管怎么分類,這些算法要想正常的工作,對事物的分類能夠達(dá)到實用的水平,兩個條件是不可或缺的,那就是“數(shù)據(jù)”、“計算力”。計算力很好理解,這些算法,都比較復(fù)雜,沒有強(qiáng)大的CPU、內(nèi)存等硬件支撐,這些算法,要么不能運(yùn)行,要么猴年馬月也運(yùn)行不完,給不出結(jié)果。如果你訓(xùn)練模型,利用這些算法編好程序后,扔給計算機(jī),它花了半年才計算完,給你打印出結(jié)果。你心中,也一定是一萬個“草泥馬”飄過。。。。。對于數(shù)據(jù)的要求,這是因為,這些算法的背后的數(shù)學(xué)原理,大部分都跟概率論有關(guān)。各位看官,如果興趣,可百度“VC維”理論,針對“深度學(xué)習(xí)”的可學(xué)習(xí)性的理論解釋,人類現(xiàn)在也沒有研究透,只知道這玩意挺管用,在很多方面效果挺好,科技前沿,給出的解釋是用“泛函空間概率論”來解釋。但不管怎么說,就是概率論,就是瞎猜。瞎猜嘛,當(dāng)然是依據(jù)越多,猜的的越準(zhǔn),猜的越穩(wěn)。也就是數(shù)據(jù)越多,這些算法就會猜的越準(zhǔn),猜的越穩(wěn)。好了,現(xiàn)在“大數(shù)據(jù)”,就可以攙和進(jìn)來了。沒有數(shù)據(jù),或者數(shù)據(jù)很少、數(shù)據(jù)緯度較少,不夠詳細(xì),這些算法“巧婦”,也會無米下鍋,做不出可口的飯菜的。

有了所謂的“大數(shù)據(jù)”和云計算,我們就可以方便的命令這些算法“巧婦”們給我們做飯了。從‘?dāng)?shù)據(jù)’這個“米”的角度說,我們可以HDFS存儲更多的米,更豐富的食材;從‘大數(shù)據(jù)組件’這個鍋碗瓢盆的‘工具’角度來說,我們有了spark等組件(利用深度學(xué)習(xí)算法,比較強(qiáng)大的組件是TensorFlow),有了更強(qiáng)大的計算工具,我們可以利用這些組件調(diào)用這些高大上的分類算法,再加上所謂的“大數(shù)據(jù)”、“深度學(xué)習(xí)”、“機(jī)器學(xué)習(xí)”,就可以做出更好吃的飯了。從系統(tǒng)架構(gòu)上來說,猜嘛。猜對、猜錯都是很正常的,可能這么猜不對,換個參數(shù)、換個算法 重新猜一下,就猜對了。因此,也就有了“數(shù)據(jù)挖坑一身功,全靠調(diào)參”的說法。這就要求,我們的系統(tǒng),有更好靈活性,方便我們對針對這些算法“休妻再娶”。

。。。。。。。。。。

有了上面大體的介紹,針對“大數(shù)據(jù)”、“人工智能”、“深度學(xué)習(xí)”、“機(jī)器學(xué)習(xí)”等具體行業(yè)應(yīng)用,我再簡單說兩句。

以電商行業(yè)為例,有一個概念叫“用戶畫像”,它是很多系統(tǒng)的基礎(chǔ),比如推薦系統(tǒng)、精準(zhǔn)廣告系統(tǒng)、大數(shù)據(jù)風(fēng)控系統(tǒng)的等等。

實際工作的過程中,情況和限制,也就更多更復(fù)雜了。針對各類企業(yè)、每個企業(yè),我想都在某些時刻,有去猜(也就是去分類)某些事情的需求。此時,找猜的“米”時,一看,之前很多數(shù)據(jù)沒保存,無米下鍋。沒有人才,沒多少人會利用這些牛逼的“算法+數(shù)據(jù)”去猜。更多是沒有數(shù)據(jù)意識,針對馬云口中“DT時代”,沒有感官認(rèn)識,不明白具體是什么意思。。。。。。

在具體落地的解決方案過程中,數(shù)據(jù)收集、存儲、計算工具等等方面,現(xiàn)在技術(shù)發(fā)展的還是可以的。再具體“怎么猜”(是利用if elif else與語句猜,是利用線性模型猜,還是利用“深度學(xué)習(xí)”猜)的過程中,那就要具體情況具體分析了:

總共才兩三中情況,看一眼就知道怎么回事,提煉出規(guī)則,編程成固定規(guī)則就行了,上深度學(xué)習(xí),純屬腦子有?。?/span>

但像BAT這種大公司,有很多牛叉的研究員,整天研究如何利用盡可能對的數(shù)據(jù)(“大數(shù)據(jù)”),比較牛逼的算法策略(比如“深度學(xué)習(xí)”等),盡可能多猜的更準(zhǔn)、更穩(wěn)。哪怕猜準(zhǔn)確率提高1%,那么可能多銷售幾個億的商品。。。。。

目前,語音識別、機(jī)器翻譯。等等,本質(zhì)上,也是“猜”嘛。英語中某個句話猜成中文的意思,有30%準(zhǔn)確率,用上深度學(xué)習(xí)后,猜對的可能性提高到了45%。。。。。某段錄音,根據(jù)記錄的音波,之前猜對概率是85%,積累的數(shù)據(jù)多了,參數(shù)調(diào)的好點(diǎn)了,猜對概率95%了,這就是進(jìn)步啊。等到,你說依據(jù)話,計算機(jī)猜你的意思,猜對的概率是99%了,我想那時,你百度什么東西,就不用輸關(guān)鍵詞了,對這電腦說就行了。。。。

但無論怎么樣,即便是BAT、谷歌等大公司,前沿研究除外,能為資本家?guī)碇苯永麧櫟臋C(jī)器學(xué)習(xí)算法,目前還是比較簡單的機(jī)器學(xué)習(xí)算法為主,比如一些線性模型類的算法(我記得我第一次學(xué)線性回歸時,在初中數(shù)學(xué)里的內(nèi)容),所以,這些算法的原理也是比較簡單的。上世界90年代各方面就研究的很透了,只不過那時候,人類積累的數(shù)據(jù)少(數(shù)據(jù)就在那里,每天都在產(chǎn)成,只不過,那是沒有性價比高的記錄手段)、計算機(jī)的計算能力不足。。。。。。至于更高大上一些的算法,比如深度學(xué)習(xí)等,主要用來對系統(tǒng)里的某一些環(huán)節(jié)改造,增加猜對的概率。嚴(yán)格意義說,跟所謂的“大數(shù)據(jù)”,沒多少直接關(guān)系。即便是沒有“深度學(xué)習(xí)”,用其他的算法,要想達(dá)到實用效果,所需要的數(shù)據(jù)量也不一定少。

回望,很多概念,“火”與不“火”的歷程也是有規(guī)律可循的。07、08、09年時,與“云”有關(guān)的很火,什么“公有云”、“私有云”、“混合云”,12、13、14年時,“大數(shù)據(jù)”很火;現(xiàn)在,16、17年,“機(jī)器學(xué)習(xí)”、“人工智能”很火。有了“云”架構(gòu),我們有了靈活手段的去調(diào)度硬件資源,所以要利用搞點(diǎn)事情啊,再加上谷歌的工程師發(fā)表了著名的三篇論文,全世界的工程師開發(fā)了相關(guān)軟件;因此,后來的“大數(shù)據(jù)”火了,這時的“火”,更多是建立“數(shù)據(jù)倉庫”等存儲等階段,針對數(shù)據(jù)利用、處理,也是普通簡單算法范圍,如統(tǒng)計一下數(shù)據(jù),出一些Top榜什么的。。。。后來,有了積累了多數(shù)據(jù)、更多資源了,我們有什么理由不把跟牛逼的策略、算法搬出來,對數(shù)據(jù)挖的更深、利用的更好呢。。。。從中可以看出,這些概念火起來,是計算力的進(jìn)步,是人類收集、存儲、加工、處理、利用信息能力的進(jìn)步。。。。

首先聲明,本人現(xiàn)在杭州一家互聯(lián)網(wǎng)公司做大數(shù)據(jù)平臺架構(gòu)師和數(shù)據(jù)分析師。因此,以下的回答,可能帶有自己的視野局限,敬請各位看官理性地指教,討論。

根據(jù)我個人的行業(yè)經(jīng)驗來看。現(xiàn)在很多人,對大數(shù)據(jù)的理解都有些偏了。目前,對大數(shù)據(jù)的主流看法就是"深度學(xué)習(xí)","人工智能"等很火,很高大上的東西,都需要大量的數(shù)據(jù),所以大數(shù)據(jù)會怎樣、怎樣。。。。

其實,大數(shù)據(jù)的背后,是人類處理信息(也就是數(shù)據(jù),大家不要認(rèn)為大數(shù)據(jù),這個概念中的"數(shù)據(jù)",是12345等阿拉伯?dāng)?shù)字組成的東西,凡是能存電腦里的東西,都是數(shù)據(jù))的IT系統(tǒng)的一次革命性升級。這次技術(shù)的升級,是繼數(shù)據(jù)庫系統(tǒng)后,人類處理數(shù)據(jù)手段和技能的提升。下面,我以一個例子,來說明我們信息處理手段的提升。

張三是個創(chuàng)業(yè)者,每晚到夜市擺攤。由于攤子很小,每天回家后,找一只筆,一個香煙盒子紙,就能把賬算了、把貨盤了,這時,憑借著一只鉛筆,一張破紙,就能把該處理的數(shù)據(jù)信息處理了。后來,攤子稍微大了一點(diǎn),張三到門口小超市花幾塊錢買了個計算器,每天在計算器"為零"的幫助下,再加上一只筆、一張紙把信息處理了。再后來,張三開了個小超市,他處理信息的能力也增強(qiáng)了,用上了Excel、word等軟件來處理信息。后來,張三開開了個大超市,其信息處理工具也鳥槍換炮了,用上了進(jìn)銷存管理系統(tǒng)、財務(wù)管理系統(tǒng)、人事管理系統(tǒng)。。。。這些系統(tǒng),在數(shù)據(jù)存儲方面,用數(shù)據(jù)庫,如mysql。在業(yè)務(wù)處理方面,招幾個程序員,用php、python或java,寫具體的業(yè)務(wù)處理邏輯(也就是當(dāng)年張三在紙上寫寫畫畫的處理過程)。這一階段的IT處理段位,是目前大多數(shù)中小企業(yè)所在的段位??梢钥闯觯@個段位的IT系統(tǒng)和處理能力有以下不足:

1、只能處理結(jié)構(gòu)化數(shù)據(jù),對大量非結(jié)構(gòu)化數(shù)據(jù)(文字、語音、視頻等),處理能力嚴(yán)重不足。

2、能處理的數(shù)據(jù)量還是太小,比如,用張破紙,你處理10條數(shù)據(jù)沒問題,給你個計算器,你處理100條數(shù)據(jù)沒壓力。用Excel,你處理10萬條無壓力。給你個mysql,你在千萬條數(shù)據(jù)的級別范圍內(nèi)增刪改查無壓力。但是,當(dāng)你要面對的數(shù)據(jù)是100億條級別時,你的數(shù)據(jù)庫、存儲、業(yè)務(wù)處理代碼等,就有可能分分鐘鬧毛病給你看。 注意:利用各種中間件構(gòu)建分布式關(guān)系型數(shù)據(jù)庫集群,是能應(yīng)付的。此處,各位看官領(lǐng)會我說的什么意思就好,先不要糾結(jié)具體技術(shù)解決方案。

3、處理的手段單一,只能跑程序員編好的程序,比較死板。只能按著代碼邏輯跑,一點(diǎn)都不"智能"。

4、從技術(shù)上講,靈活性還是不足。你的進(jìn)銷存、財務(wù)、人事等系統(tǒng)。程序員編完,能用了,也就完了。沒有重要問題和需求變更,也不會去頻繁升級、重構(gòu)和迭代更新。從這方面講,也會造成企業(yè)在想要XX數(shù)據(jù)時,發(fā)現(xiàn)沒有。想要XX功能時,發(fā)現(xiàn)要實現(xiàn)的成本太大。或者,在你的威嚴(yán)下,你手下的程序員辭職了,你滿心委屈"我不就是想要個這么小、這么簡單的功能么。這小子居然花了那么長時間弄,還TMD辭職了,90后,真是一代不如一代。。。。"。所以,這些,到最后,大多都不了了之。。。

5、從具體的實際流程上看,流程太長、太慢。比如說,您是集團(tuán)公司的老總,有一天突發(fā)奇想,想到了一個項目,想"看看相關(guān)數(shù)據(jù)"。此時,你的秘書幫你去搞數(shù)據(jù)了,北京分公司的數(shù)據(jù),很快上來了,上海分公司的數(shù)據(jù),秘書打了好幾遍電話,才要來。山東分公司的說,我們這邊忙著陪客戶吃飯喝酒了,具體數(shù)據(jù)沒收集呢,您稍等,我?guī)湍鷨枂?、查一下。浙江分公司的,?shù)據(jù)報上來了,剛放你辦公桌上,你剛翻了一下,他們打電話說,數(shù)據(jù)報錯了、漏報了,您稍等,我們組織人力物力,重新幫你核查。。。此時,時間上,少說也一個月過去了,還不一定保證數(shù)據(jù)都正確。數(shù)據(jù)收集上來,您也不用"分析"了。市場風(fēng)云變幻,黃花菜都涼了。。。

.......

鑒于此,大數(shù)據(jù)處理系統(tǒng)來了。有了hadoop、spark、storm、hbase、 Elasticsearch、zookeeper等等大數(shù)據(jù)工具搭建起來的數(shù)據(jù)處理集群,張三終于炮換導(dǎo)彈了。

1、有了hdfs,張三可以把以前覺得沒太大價值的數(shù)據(jù)保存起來。未來的事,誰知道呢,數(shù)據(jù)總是要的,說不定以后用的到呢。如果阿里巴巴沒有保存、整理用戶的交易數(shù)據(jù)等,花唄、借唄等業(yè)務(wù),開展起來,簡直就是做夢。巧婦難為無米之炊。

2、有了spark等編程框架,你的業(yè)務(wù)處理流程,也更加靈活和牛逼了。你可以用python、java,scala等編寫一些腳本似的數(shù)據(jù)分析程序,盡情地挖掘出有價值的東西。這一個個的job,寫完后,扔給調(diào)度系統(tǒng),定時,每天晚上讓集群幫你跑出來就好了。挺靈活的。

3、調(diào)用一些開發(fā)庫,你可以玩一些機(jī)器學(xué)習(xí)等高大上的東西。出去吹牛逼也有料了。

4、建立統(tǒng)一的數(shù)據(jù)處理中心,再加上互聯(lián)網(wǎng)的力量,終于可以在可接受的時間范圍內(nèi)獲得你想要的數(shù)據(jù)了,而且數(shù)據(jù)還能詳細(xì),方方面面的數(shù)據(jù)都有,最后還附有機(jī)器人"小優(yōu)"的"智能"建議和溫馨提示。

5、借助比如storm等實時處理框架,很多結(jié)果可以秒級回饋。性能遇到瓶頸了,大不了加機(jī)器。反正一切都是分布式的。

當(dāng)前,我們對大數(shù)據(jù)的理解,越來越清晰和接地氣。阿里巴巴已經(jīng)把他們的大數(shù)據(jù)系統(tǒng),改名為了"maxComputer"。從名字不難看出,大數(shù)據(jù)就是大電腦,這意味著更大的信息處理能力、更高的靈活性。。。

大數(shù)據(jù)能火多久,如同穿越到上世紀(jì)80年代,去問個人電腦能火多久一樣?,F(xiàn)在,我們都不會認(rèn)為"個人電腦"很"火"。因為,它已經(jīng)成為了人類工具箱里一件強(qiáng)大的工具,提高了人類的生產(chǎn)力。我相信,"大數(shù)據(jù)",也會成為我們的工具箱里的這么一樣工具的。



作者:lenglang
鏈接:https://www.zhihu.com/question/61683506/answer/213274187
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。


大數(shù)據(jù)還能火多久?的評論 (共 條)

分享到微博請遵守國家法律
卢龙县| 沈丘县| 凤冈县| 阜宁县| 彭山县| 曲水县| 绿春县| 会同县| 龙南县| 古田县| 石狮市| 托里县| 安图县| 晋州市| 镇赉县| 张家界市| 丰城市| 富裕县| 正定县| 新巴尔虎右旗| 休宁县| 天峻县| 南通市| 廊坊市| 仙桃市| 那曲县| 彩票| 深水埗区| 石阡县| 长寿区| 克山县| 瓮安县| 奉贤区| 会理县| 连南| 拉孜县| 杭州市| 怀集县| 青阳县| 铅山县| 绥江县|