大數(shù)據(jù)主義與大數(shù)據(jù)經(jīng)驗(yàn)主義

大數(shù)據(jù)主義與大數(shù)據(jù)經(jīng)驗(yàn)主義
——兼答黃欣榮教授
齊磊磊
????????摘要:大數(shù)據(jù)經(jīng)驗(yàn)主義是基于哲學(xué)的視角提出的一個(gè)具有學(xué)術(shù)淵源的概念,與目前流行的大數(shù)據(jù)主義和而不同。大數(shù)據(jù)經(jīng)驗(yàn)主義立場(chǎng)顯明,認(rèn)為大數(shù)據(jù)時(shí)代不需要理論;相關(guān)性替代了因果性。大數(shù)據(jù)主義的態(tài)度則較為溫和,認(rèn)為理論是處理大數(shù)據(jù)整個(gè)過(guò)程中的基礎(chǔ);大數(shù)據(jù)的相關(guān)性為尋找科學(xué)規(guī)律提供了幫助;相關(guān)性是表象,因果性才是事物的本質(zhì),獲得相關(guān)性的目的是為了更好地尋找因果性。
?
????????谷歌、IBM、臉譜網(wǎng)等創(chuàng)新公司與互聯(lián)網(wǎng)、云計(jì)算等互動(dòng)技術(shù),推動(dòng)整個(gè)數(shù)字世界進(jìn)入到大數(shù)據(jù)時(shí)代。作為對(duì)大數(shù)據(jù)時(shí)代的一個(gè)哲學(xué)反思,筆者2015年7月曾經(jīng)在《哲學(xué)動(dòng)態(tài)》上發(fā)表一篇論文“大數(shù)據(jù)經(jīng)驗(yàn)主義——如何看待理論、因果與規(guī)律”,文中首先梳理了從16、17世紀(jì)的洛克、牛頓、貝克萊、大衛(wèi)?休謨堅(jiān)持的經(jīng)驗(yàn)主義到卡爾納普、石里克的邏輯經(jīng)驗(yàn)主義再到以南茜?卡特萊特為首的新經(jīng)驗(yàn)主義的觀點(diǎn),然后結(jié)合大數(shù)據(jù)的概念與哲學(xué)意義上對(duì)大數(shù)據(jù)的理解以及新經(jīng)驗(yàn)主義的觀點(diǎn),提出了大數(shù)據(jù)經(jīng)驗(yàn)主義的概念;在對(duì)大數(shù)據(jù)經(jīng)驗(yàn)主義的基本觀點(diǎn)進(jìn)行概括后,用較大篇幅對(duì)大數(shù)據(jù)經(jīng)驗(yàn)主義的進(jìn)行哲學(xué)分析。
????????論文發(fā)表以后,國(guó)內(nèi)學(xué)界許多讀者關(guān)注到這篇論文并以不同的方式與筆者交流,比較贊賞的觀點(diǎn)主要集中在問(wèn)題的敏銳度與哲學(xué)分析的力度上,當(dāng)然也有持不同意見(jiàn)者,如黃欣榮教授專門寫了一篇文章《大數(shù)據(jù)如何看待理論、因果與規(guī)律——與齊磊磊博士商榷》。在學(xué)術(shù)研究的過(guò)程中,除了學(xué)術(shù)上的共鳴之外,難能可貴的當(dāng)然還有學(xué)術(shù)上的爭(zhēng)鳴。認(rèn)真研讀黃教授的商榷文章,爭(zhēng)論的焦點(diǎn)匯集為:大數(shù)據(jù)經(jīng)驗(yàn)主義與大數(shù)據(jù)主義是不是一回事?本文主要圍繞這個(gè)問(wèn)題展開(kāi)。
?
一、大數(shù)據(jù)經(jīng)驗(yàn)主義與大數(shù)據(jù)主義
????????黃教授在商榷的文章中首先肯定了筆者提出“大數(shù)據(jù)經(jīng)驗(yàn)主義"這一概念的意義:“她在文中提出了大數(shù)據(jù)經(jīng)驗(yàn)主義的概念,并系統(tǒng)提煉了大數(shù)據(jù)經(jīng)驗(yàn)主義的科學(xué)哲學(xué)觀點(diǎn),這是大數(shù)據(jù)哲學(xué)的重要提煉和概括?!痹谔岢鲞@個(gè)看法之后,黃教授話鋒一轉(zhuǎn),開(kāi)始討論他的不同觀點(diǎn)。
????????黃教授在接下來(lái)對(duì)不同觀點(diǎn)的闡述中第一句話就導(dǎo)致產(chǎn)生了我們商榷的焦點(diǎn)問(wèn)題。他說(shuō):“大數(shù)據(jù)經(jīng)驗(yàn)主義是一種新經(jīng)驗(yàn)主義(以下簡(jiǎn)稱為大數(shù)據(jù)主義)?!睂?duì)于這樣的一個(gè)“簡(jiǎn)稱”方式,可能是無(wú)意為之,但是筆者提出的“大數(shù)據(jù)經(jīng)驗(yàn)主義”在黃教授的商榷文章中包括題目在內(nèi)的所有使用之處都被簡(jiǎn)稱為“大數(shù)據(jù)主義”。
????????在“大數(shù)據(jù)經(jīng)驗(yàn)主義——如何看待理論、因果與規(guī)律”一文中,筆者之所以提出大數(shù)據(jù)經(jīng)驗(yàn)主義這個(gè)概念,有一個(gè)哲學(xué),尤其是科學(xué)哲學(xué)的學(xué)科背景。在科學(xué)哲學(xué)視域下,從經(jīng)驗(yàn)主義到邏輯經(jīng)驗(yàn)主義再到新經(jīng)驗(yàn)主義,貫穿其中的核心是“經(jīng)驗(yàn)”的概念與意義。正是有了這個(gè)“經(jīng)驗(yàn)”的存在,筆者才會(huì)鏈接到當(dāng)下的大數(shù)據(jù)時(shí)代幾位權(quán)威發(fā)言人的觀點(diǎn),才會(huì)創(chuàng)造性地提出“大數(shù)據(jù)經(jīng)驗(yàn)主義”的這個(gè)說(shuō)法。所以,提出“大數(shù)據(jù)經(jīng)驗(yàn)主義”概念是對(duì)時(shí)代特征進(jìn)行哲學(xué)反思的產(chǎn)物,具有可追溯的學(xué)術(shù)淵源。
????????同樣,在此基礎(chǔ)上,筆者概括出的大數(shù)據(jù)經(jīng)驗(yàn)主義的三個(gè)基本主張也是基于科學(xué)哲學(xué)的視角,是對(duì)大數(shù)據(jù)幾位權(quán)威發(fā)言人觀點(diǎn)的提煉與總結(jié),這樣的概括其核心的主張也是基于傳統(tǒng)上對(duì)“經(jīng)驗(yàn)”的解讀與結(jié)合,“經(jīng)驗(yàn)”一詞可謂是“大數(shù)據(jù)經(jīng)驗(yàn)主義”這個(gè)概念的靈魂。因此,“大數(shù)據(jù)經(jīng)驗(yàn)主義”這個(gè)提法具有自身的獨(dú)特性,是不該簡(jiǎn)稱也不能簡(jiǎn)稱,當(dāng)然也是不能用其他概念代替的。
????????除了黃教授的這個(gè)簡(jiǎn)稱,商業(yè)界確實(shí)也存在著“大數(shù)據(jù)主義”這個(gè)概念。為《紐約時(shí)報(bào)》撰稿長(zhǎng)達(dá)20年的史蒂夫·洛爾(Steve?Lohr)在2015年出版了DATA-ISM:The?Revolution?Transforming?Decision?Making,Consumer Behavior,and Almost Everything Else一書(《大數(shù)據(jù)主義:一場(chǎng)發(fā)生在決策、消費(fèi)者行為以及幾乎所有領(lǐng)域的顛覆性GM!》)他在書中引用了專業(yè)研究機(jī)構(gòu)的數(shù)據(jù)、統(tǒng)計(jì)了大數(shù)據(jù)的規(guī)模與速度,說(shuō)明我們的這個(gè)世界在大數(shù)據(jù)和云計(jì)算的互動(dòng)中迅速進(jìn)人到一個(gè)大數(shù)據(jù)構(gòu)筑而成的數(shù)字世界。
????????史蒂夫·洛爾認(rèn)為對(duì)大數(shù)據(jù)的研究?jī)r(jià)值“更重要的問(wèn)題是如何運(yùn)用、如何理解這些數(shù)據(jù)?!被谶@樣的主旨,作者以大量企業(yè)和商界的案例闡述大數(shù)據(jù)何以成為“主義”:比如重點(diǎn)關(guān)注那些處于數(shù)據(jù)科學(xué)領(lǐng)域前沿的年輕企業(yè)家和具有悠久歷史的公司,重點(diǎn)介紹他們的相關(guān)經(jīng)歷,從他們的職業(yè)生涯的變遷來(lái)揭示數(shù)據(jù)技術(shù)與方法不斷發(fā)展的步伐,抽象出大數(shù)據(jù)主義思想的典型代表,最后回歸主題,大數(shù)據(jù)主義正在興起。
????????顯然,史蒂夫·洛爾所談及的“大數(shù)據(jù)主義”,主要圍繞一個(gè)比較寬泛的經(jīng)濟(jì)領(lǐng)域,調(diào)查那些具于前沿意識(shí)的項(xiàng)目與創(chuàng)意,與數(shù)據(jù)公司的科研人員、企業(yè)家共同討論大數(shù)據(jù)理論。那么,史蒂夫·洛爾所討論的“大數(shù)據(jù)主義”與我們所說(shuō)的“大數(shù)據(jù)經(jīng)驗(yàn)主義”是一回事嗎?當(dāng)然不是!原因有二:
????????其一,從學(xué)科領(lǐng)域與研究的側(cè)重點(diǎn)來(lái)說(shuō),史蒂夫·洛爾的“大數(shù)據(jù)主義”是從經(jīng)濟(jì)學(xué)領(lǐng)域出發(fā)研究若干個(gè)商業(yè)案例與前沿科技公司,側(cè)重的是大數(shù)據(jù)對(duì)人們思維與生活方式上的變G與影響,主要關(guān)注數(shù)據(jù)決策和數(shù)據(jù)應(yīng)用方面。
????????其二,主要是從因果與相關(guān)的表述角度。史蒂夫·洛爾想要“厘清大數(shù)據(jù)中的相關(guān)關(guān)系與和因果關(guān)系”時(shí),他發(fā)現(xiàn)相關(guān)關(guān)系可以為商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域提供有效的預(yù)測(cè)工具,但不能因此否定因果性。
????????對(duì)于很多人曾經(jīng)認(rèn)為“對(duì)于大量商業(yè)決策而言,有相關(guān)性就能得出令人滿意的結(jié)果”,史蒂夫·洛爾引用了IBM人工智能專家戴維·費(fèi)魯奇的反對(duì)觀點(diǎn):“商業(yè)戰(zhàn)略與ZC制定等決策領(lǐng)域面臨更大的風(fēng)險(xiǎn),僅憑相關(guān)性是絕對(duì)不夠的?!ぁぁぁぁぁの磥?lái)的人工智能除了會(huì)數(shù)據(jù)分析以外,還要對(duì)因果關(guān)系產(chǎn)生有啟發(fā)性的認(rèn)識(shí),包括理論、假設(shè)、現(xiàn)實(shí)世界的心理模型、事情的原委等,兩者必須更密切地相互配合?!?/p>
????????或許是受史蒂夫·洛爾的影響,黃教授簡(jiǎn)化的名稱“大數(shù)據(jù)主義”與史蒂夫·洛爾的書名完全相同,同樣黃教授為了支持他的商榷立場(chǎng),在他的文章中也引用了史蒂夫·洛爾上面的這一段話。仔細(xì)分析,《大數(shù)據(jù)主義》中的這一段話所表達(dá)的觀點(diǎn)恰恰反對(duì)的是筆者所提出的“大數(shù)據(jù)經(jīng)驗(yàn)主義”對(duì)因果與相關(guān)關(guān)系所表述的意思。
????????也就是說(shuō),從因果與相關(guān)的立場(chǎng)上,大數(shù)據(jù)主義是反對(duì)大數(shù)據(jù)經(jīng)驗(yàn)主義的觀點(diǎn)的。在這個(gè)意義上,將大數(shù)據(jù)經(jīng)驗(yàn)主義直接簡(jiǎn)稱為大數(shù)據(jù)主義是不恰當(dāng)?shù)摹?/strong>由此以大數(shù)據(jù)主義的立場(chǎng)進(jìn)行商榷實(shí)際上在一定程度上支持了筆者對(duì)大數(shù)據(jù)經(jīng)驗(yàn)主義的批判。
????????從另一個(gè)角度,筆者提出的“大數(shù)據(jù)經(jīng)驗(yàn)主義”是史蒂夫·洛爾所說(shuō)的“大數(shù)據(jù)主義”的加強(qiáng)版,或者稱為強(qiáng)硬的“大數(shù)據(jù)主義”。這樣的一種表述同樣也來(lái)自史蒂夫·洛爾的《大數(shù)據(jù)主義》。
????????史蒂夫·洛爾曾經(jīng)介紹到摩根士丹利的前首席經(jīng)濟(jì)師理查德·伯納,稱他是一位有條件支持大數(shù)據(jù)的擁護(hù)者,在提到大數(shù)據(jù)作為金融顯微鏡的作用時(shí),史蒂夫·洛爾說(shuō):“強(qiáng)硬的數(shù)據(jù)主義者認(rèn)為無(wú)須任何理論,也無(wú)須借助為世界運(yùn)行方式建立模型,單憑相關(guān)性就可以解決一切問(wèn)題?!?/p>
????????對(duì)于這種“強(qiáng)硬的數(shù)據(jù)主義者”的觀點(diǎn),查德·伯納說(shuō):“我認(rèn)為,說(shuō)相關(guān)性足以說(shuō)明問(wèn)題的人都應(yīng)該反思?!薄霸谒磥?lái),數(shù)據(jù)與理論(或者經(jīng)濟(jì)行為模型)對(duì)于了解經(jīng)濟(jì)社會(huì)而言都必不可少。伯納補(bǔ)充說(shuō),當(dāng)前的這種爭(zhēng)論在經(jīng)濟(jì)學(xué)史上早已有之,可以追溯至加林·庫(kù)普曼斯在1947年發(fā)表的論文‘缺乏理論的計(jì)量’。庫(kù)普曼斯是一位荷蘭裔美國(guó)經(jīng)濟(jì)學(xué)家,后來(lái)獲得了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng),他在這篇文章里對(duì)商業(yè)圈中的強(qiáng)硬‘經(jīng)驗(yàn)主義’方法進(jìn)行了抨擊?!?/p>
????????這樣,“大數(shù)據(jù)經(jīng)驗(yàn)主義”除了有自身的學(xué)科背景之外,在經(jīng)濟(jì)學(xué)領(lǐng)域也找到了相應(yīng)的理論源頭,它們共同的焦點(diǎn)都指向了從“經(jīng)驗(yàn)主義”的角度討論因果與相關(guān),只不過(guò)來(lái)自哲學(xué)領(lǐng)域的“大數(shù)據(jù)經(jīng)驗(yàn)主義”是對(duì)強(qiáng)硬“經(jīng)驗(yàn)主義”的擁護(hù),而來(lái)自經(jīng)濟(jì)學(xué)領(lǐng)域的“大數(shù)據(jù)經(jīng)驗(yàn)主義”是對(duì)強(qiáng)硬“經(jīng)驗(yàn)主義”的批判。
????????退一步說(shuō),即使《大數(shù)據(jù)主義》只主張?jiān)谏虡I(yè)或者經(jīng)濟(jì)領(lǐng)域,只需要進(jìn)行數(shù)據(jù)分析就可以做出決策,那么作為對(duì)“大數(shù)據(jù)主義”的表述,這樣的說(shuō)法也沒(méi)有任何問(wèn)題,正如筆者界定的“大數(shù)據(jù)經(jīng)驗(yàn)主義”有他自身的特征一樣,“大數(shù)據(jù)主義”也有自身的特征。
????????史蒂夫洛爾在提出了“大數(shù)據(jù)主義”的名稱后,在厘清大數(shù)據(jù)中的相關(guān)關(guān)系和因果關(guān)系時(shí),即使提出這樣的觀點(diǎn),即認(rèn)為相關(guān)關(guān)系可以為商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域提供有效的預(yù)測(cè)工具,因此而否定因果,這也是他提出的“大數(shù)據(jù)主義”的題中應(yīng)有之意,與其它背景下提出的“大數(shù)據(jù)經(jīng)驗(yàn)主義”沒(méi)有對(duì)比的基準(zhǔn)。
????????至此,我們已經(jīng)基本回答了商榷的焦點(diǎn)問(wèn)題。相對(duì)大數(shù)據(jù)經(jīng)驗(yàn)主義的觀點(diǎn)和立場(chǎng),大數(shù)據(jù)主義是如何看待理論、因果與規(guī)律的呢?我們接下來(lái)進(jìn)行詳細(xì)討論。
?
二、大數(shù)據(jù)主義如何看待理論、因果與規(guī)律
????????區(qū)別于“大數(shù)據(jù)經(jīng)驗(yàn)主義”相對(duì)比較極端的觀點(diǎn),“大數(shù)據(jù)主義”采取溫和的態(tài)度來(lái)看待數(shù)據(jù)相關(guān)與理論、因果的關(guān)系。他們認(rèn)為,數(shù)據(jù)的相關(guān)性是為了尋找數(shù)據(jù)規(guī)律以助于發(fā)現(xiàn)因果關(guān)系。這正是“大數(shù)據(jù)經(jīng)驗(yàn)主義”一文中筆者所堅(jiān)持的立場(chǎng):“我們不否認(rèn)大數(shù)據(jù)方法論,但并不贊同目前大數(shù)據(jù)時(shí)代引領(lǐng)下的這種大數(shù)據(jù)經(jīng)驗(yàn)主義的神化觀點(diǎn)?!?/p>
????????筆者當(dāng)時(shí)使用的是“大數(shù)據(jù)方法論”,所要表達(dá)的觀點(diǎn)實(shí)際上與后來(lái)的“大數(shù)據(jù)主義”的觀點(diǎn)一樣,與黃欣榮教授商榷文章的立場(chǎng)也是保持一致的。由于“大數(shù)據(jù)經(jīng)驗(yàn)主義”一文中已詳細(xì)地討論過(guò)大數(shù)據(jù)經(jīng)驗(yàn)主義如何對(duì)待理論、因果與規(guī)律,對(duì)于安德森等人言辭過(guò)于激烈的論調(diào),屬于大數(shù)據(jù)經(jīng)驗(yàn)主義的觀點(diǎn),此處不再贅述。
????????對(duì)于舍恩伯格的有些觀點(diǎn),細(xì)心的讀者會(huì)看到,我們此處也會(huì)涉及到一些。舍恩伯格與庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代》一書中,許多觀點(diǎn)與立場(chǎng)也不是非常明確、清晰,甚至有些前后并不一致。
????????這恰恰表明:大數(shù)據(jù)經(jīng)驗(yàn)主義與大數(shù)據(jù)主義是截然二分的,但很多人對(duì)大數(shù)據(jù)的觀點(diǎn)和看法并不是一成不變的,他們?cè)诖髷?shù)據(jù)“忽如一夜春風(fēng)來(lái)”的沖擊下或許發(fā)表了一些過(guò)激的言論,被歸為“大數(shù)據(jù)經(jīng)驗(yàn)主義”之列,但隨著認(rèn)識(shí)的深入、實(shí)踐的應(yīng)用以及冷靜地思考,對(duì)大數(shù)據(jù)的態(tài)度會(huì)發(fā)生改變(比如他們會(huì)更為正確地看待大數(shù)據(jù)與理論、因果、規(guī)律之間的關(guān)系),進(jìn)而轉(zhuǎn)向“大數(shù)據(jù)主義”。
????????理論、因果與規(guī)律,三者具體表達(dá)的雖然有差別.但相對(duì)于大數(shù)據(jù),它們又是一個(gè)“統(tǒng)一戰(zhàn)線”,所以本文將三者看作一個(gè)整體而未作刻意區(qū)分,根據(jù)具體情況提及其中某個(gè)或某些個(gè),有時(shí)也將“因果與規(guī)律”涵蓋在理論之中,以“理論”為代表。下面詳細(xì)討論大數(shù)據(jù)主義對(duì)待理論、因果與規(guī)律的態(tài)度。
????????大數(shù)據(jù)的風(fēng)云人物舍恩伯格與庫(kù)克耶反對(duì)安德森“理論終結(jié)”的說(shuō)法。他們認(rèn)為:“'理論的終結(jié),似乎暗示著,盡管理論仍存在于像物理、化學(xué)這樣的學(xué)科里,但大數(shù)據(jù)分析不需要成形的概念。這實(shí)在荒謬?!?/p>
????????進(jìn)而,他們表達(dá)了大數(shù)據(jù)與理論關(guān)系的看法:“大數(shù)據(jù)是在理論的基礎(chǔ)上形成的。比方說(shuō),大數(shù)據(jù)分析就用到了統(tǒng)計(jì)和數(shù)學(xué)理論,有時(shí)也會(huì)用到計(jì)算機(jī)科學(xué)理論?!啊敖⒃谶@些理論上的大數(shù)據(jù)分析模式是實(shí)現(xiàn)大數(shù)據(jù)預(yù)測(cè)能力的重要因素”從這些言論上看,舍恩伯格與庫(kù)克耶把理論看作是主體部分,大數(shù)據(jù)的產(chǎn)生離不開(kāi)理論的支撐,對(duì)大數(shù)據(jù)的分析以及具體應(yīng)用(如預(yù)測(cè))也都是以理論為基礎(chǔ)的。
????????談到大數(shù)據(jù)整個(gè)處理過(guò)程,舍恩伯格與庫(kù)克耶的觀點(diǎn)更為顯明:收集大數(shù)據(jù)時(shí),理論影響著我們?nèi)绾巫龀鱿嚓P(guān)的決定;分析大數(shù)據(jù)時(shí),我們使用什么樣的分析工具也依賴于理論;分析大數(shù)據(jù)最后的結(jié)果時(shí),同樣也離不開(kāi)理論的指導(dǎo)。因此,他們的結(jié)論是:“大數(shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面。”
????????具體來(lái)說(shuō),我們可以先設(shè)定一個(gè)問(wèn)題,使用大數(shù)據(jù)來(lái)分析、驗(yàn)證計(jì)算機(jī)借助算法生成的若干可能性假設(shè),而不是依靠經(jīng)驗(yàn)或?qū)嶒?yàn)逐個(gè)驗(yàn)證,這樣的方式去除了對(duì)既有認(rèn)知的阻礙,從統(tǒng)計(jì)學(xué)的角度提高了精確性。
????????仔細(xì)分析兩者的區(qū)別:使用計(jì)算機(jī)的算法程序產(chǎn)生的大量數(shù)據(jù)可以驗(yàn)證問(wèn)題的所有可能的答案,最后選取其中最優(yōu)的一個(gè);而傳統(tǒng)的經(jīng)驗(yàn)試錯(cuò)法有可能會(huì)丟失某些關(guān)鍵的數(shù)據(jù)而造成解答的偏差。
????????但同時(shí)我們還要考慮這樣一個(gè)問(wèn)題:有時(shí)候數(shù)據(jù)并不是越多越好,如果不加選擇地隨意使用大數(shù)據(jù)則會(huì)存在一些潛在的風(fēng)險(xiǎn)。比如當(dāng)有人為了某種目的而惡意提供虛假的數(shù)據(jù),如果使用者直接采用而不作理論上的分析,那勢(shì)必會(huì)產(chǎn)生錯(cuò)誤的結(jié)論或做出糟糕的決策。
????????大數(shù)據(jù)以理論為根基,“大數(shù)據(jù)絕不會(huì)叫囂‘理論已死’,但它毫無(wú)疑問(wèn)會(huì)從根本上改變我們理解世界的方式。”與小數(shù)據(jù)時(shí)代不同,大數(shù)據(jù)可以幫助研究者找到以前所發(fā)現(xiàn)不了的規(guī)律與因果聯(lián)系,除了在商業(yè)、科學(xué)等諸多領(lǐng)域帶來(lái)的大的變化,大數(shù)據(jù)為更好地認(rèn)識(shí)世界提供了更多的方式與可能。目前的這個(gè)世界變得更加復(fù)雜,隨之帶來(lái)的不確定性遠(yuǎn)超我們的想象。因此,當(dāng)人們使用大數(shù)據(jù)探索世界時(shí),他們可能會(huì)獲得更好的理解,相應(yīng)地會(huì)提高解決問(wèn)題的能力和決策水平。
????????人們尋找因果關(guān)系是一種與生俱來(lái)的能力或習(xí)慣,我們隨時(shí)準(zhǔn)備著從因果關(guān)系的角度來(lái)認(rèn)識(shí)世界,大多數(shù)情況下,人們只有真正地解釋與理解世界內(nèi)部究竟是怎么一回事時(shí),才會(huì)感到欣慰。雖然實(shí)際發(fā)現(xiàn)的因果關(guān)系并沒(méi)有想象中的多,甚至有些是錯(cuò)誤的(深層的研究顯示,通常我們對(duì)因果關(guān)系的快速直覺(jué)是完全錯(cuò)誤的),但這并不是只要相關(guān)性而放棄尋找因果關(guān)系的理由。
????????因此,大數(shù)據(jù)主義者是比較溫和地看待理論、因果與規(guī)律。除此之外,大數(shù)據(jù)主義者也認(rèn)為:“大數(shù)據(jù)的發(fā)展可能會(huì)改變經(jīng)濟(jì)和社會(huì)生活,可能會(huì)改變科學(xué)研究的途徑,甚而改變?nèi)祟惖乃季S方式。”
????????如今,大數(shù)據(jù)處理技術(shù)會(huì)對(duì)來(lái)自各方面的大量信息進(jìn)行分析,當(dāng)你在網(wǎng)上搜索時(shí),大規(guī)模數(shù)據(jù)庫(kù)可以滿足我們的訪問(wèn),幫助我們做出更好的決策,譬如你在網(wǎng)上購(gòu)書,系統(tǒng)會(huì)給出百分之多少的人也瀏覽過(guò)這本書,百分之多少人購(gòu)買,有哪些書與其搭配購(gòu)買。就像這樣,我們的很多行為都被數(shù)據(jù)化。購(gòu)物、社交、愛(ài)好等等都被大數(shù)據(jù)分析,這些數(shù)據(jù)潛移默化地改變著這個(gè)社會(huì),改變著人們的行為習(xí)慣與思維方式。
?
三、大數(shù)據(jù)在理論、因果與規(guī)律中的位置
????????基于對(duì)大數(shù)據(jù)與科學(xué)理論關(guān)系的思考,很多學(xué)者對(duì)傳統(tǒng)的科學(xué)發(fā)現(xiàn)模式產(chǎn)生了新的看法,認(rèn)為“科學(xué)始于數(shù)據(jù)”。黃欣榮教授詳細(xì)梳理了科學(xué)哲學(xué)中曾出現(xiàn)的科學(xué)發(fā)現(xiàn)模式中的幾種范式,并以此為基礎(chǔ)得出了這樣的結(jié)論:“在大數(shù)據(jù)時(shí)代,知識(shí)的發(fā)現(xiàn)可以從數(shù)據(jù)開(kāi)始,不再需要預(yù)先做出理論的假設(shè)?!?/p>
????????黃教授此處使用“可以”而不是某種更強(qiáng)硬的語(yǔ)氣,不是強(qiáng)調(diào)一定要從數(shù)據(jù)開(kāi)始,這樣的表達(dá)方式表現(xiàn)了大數(shù)據(jù)主義較溫和的態(tài)度:知識(shí)的發(fā)現(xiàn)可以從假設(shè)與模型開(kāi)始,也可以從數(shù)據(jù)開(kāi)始,前者為主,后者為輔,或者說(shuō)后者是前者的有益補(bǔ)充。
????????關(guān)于這一點(diǎn),吉姆·格雷(Jim?Gray)作為計(jì)算機(jī)專家,從科學(xué)記錄的角度倡導(dǎo)了“科學(xué)研究的第四范式”(也有人稱作“數(shù)據(jù)密集型科學(xué)”),更為全面地分析了科學(xué)發(fā)現(xiàn)可以從大數(shù)據(jù)開(kāi)始。黃教授贊同格雷對(duì)科學(xué)發(fā)現(xiàn)模式所作的系統(tǒng)的四種分類,前兩種范式(經(jīng)驗(yàn)(實(shí)驗(yàn)或試驗(yàn))范式和理論范式)是科學(xué)哲學(xué)歷史上兩大流派的核心觀點(diǎn)。
????????第三種計(jì)算范式,即大規(guī)模的計(jì)算機(jī)模擬,它的出現(xiàn)是由于20世紀(jì)中期,“支撐試驗(yàn)和理論的計(jì)算技術(shù)的同時(shí)增長(zhǎng),加大了傳統(tǒng)科學(xué)記錄的壓力。不僅底層數(shù)據(jù)在持續(xù)增加,模擬和試驗(yàn)的產(chǎn)出也變成大型而復(fù)雜的數(shù)據(jù)集,它們只能總結(jié)性地出現(xiàn)(不能完整地被記錄)在傳統(tǒng)出版物中?!?/p>
????????在這樣的情況下,計(jì)算技術(shù)成為產(chǎn)生大量數(shù)據(jù)的工具,大量的數(shù)據(jù)推動(dòng)了科學(xué)理論的發(fā)展,計(jì)算數(shù)據(jù)的記錄用來(lái)補(bǔ)充實(shí)驗(yàn)方法的傳統(tǒng)描述。它所處的位置等價(jià)于傳統(tǒng)中的實(shí)驗(yàn)數(shù)據(jù),大量的實(shí)驗(yàn)數(shù)據(jù)在理想狀態(tài)下是可以帶來(lái)更好的理論規(guī)律或科學(xué)假設(shè),推動(dòng)科學(xué)理論的發(fā)展。科學(xué)理論的世界發(fā)生了變化,隨著收集的數(shù)據(jù)或模擬產(chǎn)生的數(shù)據(jù)爆炸式地增長(zhǎng),“從計(jì)算科學(xué)中把數(shù)據(jù)密集型科學(xué)區(qū)分出來(lái)作為一個(gè)新的、科學(xué)探索的第四范式頗有價(jià)值。”
????????因此,形成于新的發(fā)展形勢(shì)下的第四范式并沒(méi)有要取代前三個(gè)范式的意圖,相反還成為加強(qiáng)大數(shù)據(jù)與理論密切關(guān)系的粘合劑:“在一定意義上,格雷的第四范式提供了一個(gè)集成框架,使前三者(范式)相互作用,相得益彰”,即格雷自己所說(shuō)的:“模擬、理論和試驗(yàn)在大量數(shù)據(jù)背景下必須攜手合作”。這樣的描述恰恰說(shuō)明目前大數(shù)據(jù)在科學(xué)理論中的地位。
????????從科學(xué)記錄的角度對(duì)大數(shù)據(jù)引起的第四種研究范式的分析,大數(shù)據(jù)主義的看法可以用天文學(xué)上的一個(gè)案例形象地表達(dá):正如開(kāi)普勒利用布拉赫對(duì)天體運(yùn)動(dòng)的大量觀測(cè)數(shù)據(jù)中發(fā)現(xiàn)了行星運(yùn)動(dòng)三定律一樣,對(duì)大數(shù)據(jù)的分析引發(fā)產(chǎn)生了若干新的理論,“在對(duì)所采集并仔細(xì)保存的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行挖掘和分析的基礎(chǔ)上建立起新的理論,也正是第四范式的一個(gè)重要特征。”
????????通過(guò)以上分析,在筆者看來(lái),大數(shù)據(jù)與理論的最根本的關(guān)系可以歸結(jié)為:大數(shù)據(jù)幫助發(fā)現(xiàn)理論。這種幫助作用并不僅僅只停留在“假設(shè)、模型或?qū)嶒?yàn)”階段,大數(shù)據(jù)的助推作用貫穿于發(fā)現(xiàn)理論的多個(gè)環(huán)節(jié)與過(guò)程中。但是,就像拉卡托斯的“研究綱領(lǐng)”所要表達(dá)的意思,大數(shù)據(jù)在科學(xué)理論發(fā)現(xiàn)中的這種積極作用并沒(méi)有改變“研究綱領(lǐng)”中的“內(nèi)核”。
????????也就是說(shuō),目前科學(xué)理論的發(fā)現(xiàn)過(guò)程中,雖然大數(shù)據(jù)起到了重要的作用,但并沒(méi)有取代其他范式建立一種以大數(shù)據(jù)為中心或者是以大數(shù)據(jù)為起源的研究范式(去中心化),而是仍然遵從于以問(wèn)題為導(dǎo)向(中心化)的理論研究。如果“科學(xué)起源于數(shù)據(jù)”,那就會(huì)陷入漫無(wú)目的地收集數(shù)據(jù)的海洋,即使能夠做到大數(shù)據(jù)主義所主張的全數(shù)據(jù)分析,那么在收集這些全數(shù)據(jù)時(shí)也要針對(duì)一個(gè)明確的問(wèn)題,不然全數(shù)據(jù)收集就會(huì)陷入自己的悖論之中,是不可能完成的。
????????如果把“科學(xué)起源于大數(shù)據(jù)”當(dāng)作是一種研究方法,那么理想中或邏輯上的全樣本分析實(shí)際上是一種完全歸納。這種完全歸納如果可以實(shí)現(xiàn),就會(huì)更容易探明因果關(guān)系。按照科學(xué)方法論,科學(xué)的歸納在于尋找因果關(guān)系,進(jìn)而提出規(guī)律或理論。
????????所以,那些通過(guò)大數(shù)據(jù)的分析只關(guān)注相關(guān)性就可以的研究者實(shí)際上是“用大炮打蚊子”,不是說(shuō)不可以,實(shí)在是浪費(fèi)了我們的“大數(shù)據(jù)時(shí)代”。于是我們可以說(shuō):不以尋找因果關(guān)系為目的的大數(shù)據(jù)研究是不徹底的。
?
四、結(jié)語(yǔ)
????????利用大數(shù)據(jù)得出理論、因果與規(guī)律,實(shí)際上像傳統(tǒng)科學(xué)研究的過(guò)程、步驟一樣,只不過(guò)是用于分析的數(shù)據(jù)量的大小的差別,相應(yīng)地會(huì)有不同的研究方法或者可能更接近于真實(shí)的結(jié)果。除此以外,并沒(méi)有更大的神秘。大數(shù)據(jù)只是幫助研究者更好地發(fā)現(xiàn)理論、因果與規(guī)律,是假設(shè)—模型—理論中的一個(gè)有效的發(fā)現(xiàn)方法,處于輔助地位而不能代替它們中的任何一個(gè)。
????????在大數(shù)據(jù)使用的“嬰兒期”,類似像大數(shù)據(jù)的擁護(hù)者所斷言的:“我們正處在一個(gè)認(rèn)識(shí)論的GM之中,因果分析和理論生成會(huì)被現(xiàn)代主義方法論毫不留情地取代”,以及只要數(shù)據(jù)不要理論、只要相關(guān)不要因果這樣的言論為時(shí)過(guò)早。
????????讓商界的歸商界,學(xué)術(shù)的歸學(xué)術(shù)。在使用大數(shù)據(jù)時(shí),目前的資料文獻(xiàn)大都集中于商用案例的應(yīng)用描述或分析。商界注重應(yīng)用,學(xué)術(shù)注重研究,由于各自側(cè)重點(diǎn)的不同,導(dǎo)致對(duì)大數(shù)據(jù)的態(tài)度會(huì)不一樣,但仔細(xì)分析,商界的使用最終也是要回歸到數(shù)據(jù)的分析,最終還要借助理論進(jìn)行,最后還要究其原因。
????????大數(shù)據(jù)中經(jīng)常被使用的案例有一個(gè)是關(guān)于2009年谷歌成功預(yù)測(cè)了禽流感:通過(guò)大數(shù)據(jù)的統(tǒng)計(jì),集中在一段時(shí)間內(nèi)某一地區(qū)的人們搜索“發(fā)燒”“頭痛”“咳嗽”等特定詞條頻率大量增加,谷歌公司山此斷定在這個(gè)地區(qū)會(huì)引發(fā)禽流感。這個(gè)事件也讓大數(shù)據(jù)包括谷歌公司名聲大振。但遺憾的是,這樣的原理卻在2012—2013年間推出錯(cuò)誤的結(jié)論,出現(xiàn)“大數(shù)據(jù),大偏差”的窘境,究其原因主要是因?yàn)閷?duì)大數(shù)據(jù)只關(guān)注相關(guān)性而忽略了理論與因果關(guān)系的討論,這樣得出的規(guī)律用鐵的事實(shí)告訴我們是不恰當(dāng)?shù)摹?/p>
????????忽如一夜智能啟,千數(shù)萬(wàn)數(shù)匯集來(lái)。我們這個(gè)時(shí)代,恒河沙數(shù)的數(shù)據(jù)勢(shì)如破竹,我們唯有正視它、利用它才不會(huì)成為時(shí)代的棄兒。但同時(shí),我們也不能唯數(shù)據(jù)論,把數(shù)據(jù)當(dāng)作替代理論和因果的尚方寶劍。新的時(shí)代要有新的思維與方法,培養(yǎng)大數(shù)據(jù)的理念與思維,不僅要順大數(shù)據(jù)之勢(shì)而謀,還要應(yīng)大數(shù)據(jù)之勢(shì)而為,學(xué)術(shù)研究中應(yīng)該正確使用大數(shù)據(jù)并使其最終服務(wù)于理論、因果與規(guī)律的研究。
?