為啥說大數(shù)據(jù)時代沒有隱私

必須承認:大數(shù)據(jù)對個人隱私的保護帶來了挑戰(zhàn)。
主要問題在于
與傳染病流行的三要素(傳染源、傳播途徑、易感人群)類似,大數(shù)據(jù)增加了隱私泄露的“傳染源”的數(shù)量、加速了“傳播途徑”、擴大了“易感人群”的規(guī)模,并且“疫苗”的推出還存在時效性缺陷,因此無疑給個人隱私保護帶來了巨大的挑戰(zhàn)。“傳染源”方面,更多的個人隱私以可傳播的形式存在;“傳播途徑”方面,個人隱私傳播的路徑更加多樣、傳播速度更快;“易感人群”方面,個人隱私數(shù)據(jù)蘊含著巨大的經(jīng)濟價值,有許多人或者實體想要利用這些數(shù)據(jù)牟利;“疫苗”方面,技術發(fā)展的速度遠大于立法、修法的速度,很多時候存在法律與現(xiàn)實脫節(jié)的問題。
但這個問題并不是單向的,從普通用戶角度看到的是大數(shù)據(jù)對個人隱私保護的挑戰(zhàn);從大數(shù)據(jù)從業(yè)者的角度,看到的還有由于對隱私保護的重視導致的數(shù)據(jù)孤島問題。
隱私保護
隨著大數(shù)據(jù)的不斷發(fā)展,重視數(shù)據(jù)隱私和安全已經(jīng)成了世界性的趨勢,世界上很多國家都在立法保護數(shù)據(jù)安全和隱私。例如影響非常廣泛的歐盟的《數(shù)據(jù)安全保護條例》(General Data Protection Regulation, GDPR),GDPR的實施對大數(shù)據(jù)的收集、交換、轉移、建模等各個環(huán)節(jié)都帶來了巨大的挑戰(zhàn),一個涉及大數(shù)據(jù)的實體稍有不慎就可能面臨嚴(ju)厲(e)的(de)處(fa)罰(kuan)。:)
而我國也在加快立法進程以保護數(shù)據(jù)安全和個人隱私,近年來,許多法律、法規(guī)、規(guī)章密集出臺;并且呈現(xiàn)出嚴格化和全面化的趨勢(如下圖)。此外,十三屆全國人大常委會已將制定《個人信息保護法》列入本屆立法規(guī)劃,預計會在近年內出臺。
但是
對于個人隱私保護來說,并不是法律管得越嚴格、越全面就越好。
以GDPR為例,作為影響最廣泛的數(shù)據(jù)安全法律,其執(zhí)行一年多以來,已經(jīng)引起了很多的爭議。今年6月,美國智庫信息技術和創(chuàng)新基金會(ITIF)下屬的數(shù)據(jù)創(chuàng)新中心發(fā)布報告,分析了歐盟GDPR對企業(yè)、數(shù)字創(chuàng)新、勞動力市場和消費者等多方面的挑戰(zhàn)。報告指出,GDPR生效一年后,越來越多的證據(jù)表明法律沒有產(chǎn)生預期的結果,而且?guī)砹艘庀氩坏降暮蠊唧w表現(xiàn)為:對歐盟經(jīng)濟和企業(yè)產(chǎn)生負面影響、消耗公司資源、傷害歐洲科技創(chuàng)業(yè)公司、削弱數(shù)字廣告行業(yè)的競爭、企業(yè)實施起來過于復雜等。GDPR甚至給普通消費者也帶來了不少問題:未能增加用戶之間的信任,對用戶的在線訪問產(chǎn)生負面影響,過于復雜讓消費者難以理解等。
GDPR的實施之所以會導致普通消費者面臨各種問題,我認為一大因素是其賦予了過多的數(shù)據(jù)自決權利。弗洛伊德在《文明與缺憾》里面提出,大多數(shù)人并不是真的想要自由,因為自由包含著責任,而大多數(shù)人并不愿意承擔責任。給個人賦予過多的數(shù)據(jù)自決權利并不必然意味著對個人隱私的良好保護,一個很現(xiàn)實的問題是數(shù)據(jù)自決權利的實施很可能會淪為勾選隱私保護格式條款一樣的存在(事實上,連美國聯(lián)邦最高法院的羅伯茨大法官,都坦言自己不會閱讀平常遇到的隱私協(xié)議)。我們常常呼吁大數(shù)據(jù)公司、從業(yè)者在收集數(shù)據(jù)時要遵循“最少夠用原則“,但也想呼吁法律的制定要遵循”最少夠用原則“,讓法律的歸法律,讓技術的歸技術。
需要提到的是
巨頭掌握的數(shù)據(jù),可以從“結構化”和“身份化”兩個角度來看。
解釋一下:結構化,是指數(shù)據(jù)可以填到表格里,就像通訊錄一樣規(guī)定了每個字段屬性的那種數(shù)據(jù)。身份化,就是指數(shù)據(jù)背后能否對應到你這個真實的人。
1)阿里巴巴的數(shù)據(jù)是“強結構化”+“強身份”的。
淘寶,可以知道你購買物品的名稱、價格、購買時間、地址、電話。支付寶,可以知道你的身份證、電話、付款金額,資金流向。強結構化的數(shù)據(jù)處理起來是最簡單的,因為計算機在設計之初就是用來“算數(shù)”的,最適合處理比較規(guī)整的數(shù)據(jù)。數(shù)據(jù)挖掘帶來的利潤顯而易見,那些年阿里巴巴在電商領域一騎絕塵,數(shù)據(jù)分析肯定功不可沒。但是在2009年之前,阿里巴巴用以支持數(shù)據(jù)存儲和計算的主要是 IBM 小型機和甲骨文數(shù)據(jù)庫。這些都是進口貨,死貴死貴的。隨著對于計算越來越倚重,阿里發(fā)現(xiàn)一個問題:IBM 和甲骨文數(shù)據(jù)庫在面對超大規(guī)模計算的時候,性能劣化太TM嚴重,相當十分肯定完全對不起這個價格,這才有了用便宜的PC通用服務器搭建一套計算系統(tǒng)——阿里云——的沖動。實話實說,阿里云的創(chuàng)立者王堅博士當初加盟阿里巴巴,目的不是做一個云計算底層架構,而恰恰是為了做一個大數(shù)據(jù)平臺,而為了做這個大數(shù)據(jù)平臺,反而需要首先建立阿里云。
阿里云其實是個“大數(shù)據(jù)母體”的副產(chǎn)品。再說到“強身份”。一個人的姓名、年齡、住址、身高體重、生活作息等習慣這些數(shù)據(jù),其實隱含了巨大的信息量。就像你看到一個年輕妹子,你會猜她大概率喜歡化妝品和包包;你看到一個肥宅,你會猜他喜歡零食和快樂水。大數(shù)據(jù)系統(tǒng)利用社會學的知識圖譜,把這些身份背后的隱含信息和搜索關鍵詞信息結合起來去做推薦,往往一發(fā)入魂。剁手上癮,豈能無緣無故。
2)百度的數(shù)據(jù)是“強結構化”+“次強身份”的。
大多數(shù)人在百度搜索的時候,不會使用整句,而是使用關鍵詞。關鍵詞對應的“索引”也是一種結構化數(shù)據(jù)。這里多說一句,李彥宏的本科就是北大圖書情報專業(yè),而圖書專業(yè)的核心知識就是如何科學地建立“索引”。所以他能搞出百度搜索引擎憑借的是扎實的科學知識。百度從上線的第一天開始,關鍵詞數(shù)據(jù)就是核心資源,有了它,不僅可以做競價排名,還可以做廣告推送。

說到這里想到了一個趣事。2000年的百度搜索引擎首次上線,用戶搜索的第一個關鍵詞是“張朝陽”,第二個關鍵詞就是一個羞羞的詞匯:“成人圖片”。我猜,如果百度開放成人網(wǎng)站的競價排名,那市值比現(xiàn)在要大無數(shù)倍。。。但是百度的關鍵詞數(shù)據(jù)卻不像淘寶一樣可以和具體人的身份精確對應。那是因為,你搜索一個關鍵詞,并不需要先登錄,更不需要填寫收貨地址。你不“自白”,百度就不知道你是誰。這個缺陷其實一直是百度心中的疙瘩。你還記得不,2019年百度和春晚合作,發(fā)了一次紅包。那時候,因為涉及到要領錢,必須讓用戶登錄,對應強身份,“年久失修”的登錄系統(tǒng)就承受了巨大的沖擊,差點掛了。然而,百度也并不是對于搜索者一無所知,因為他們可以采取一個“退而求其次”的技術,那就是采集你的“設備指紋”。啥是設備指紋?這里稍微科普一下,每個設備都有一個獨特的識別碼,加上你的 Wi-Fi 信息,地理信息,基本可以給每個設備分配一個“身份證號”。這樣一來,雖然不知道設備背后的用戶姓甚名誰,家住哪里,芳齡幾何,但是根據(jù)你的行為,能“蒙”出來使用這個設備的人大致年齡,是個有什么愛好的人。

雖然沒有強身份數(shù)據(jù),但是你一有困惑就會問度娘,但只有想買東西的時候才會上淘寶。所以百度這個“母體”的數(shù)據(jù)探針覆蓋會更廣。有人總愛基于“商業(yè)道德”唱衰百度,但其實看一下百度在搜索引擎中的份額,和它背后所對應的數(shù)據(jù)量,就不會輕易下這個結論了。
3)騰訊的數(shù)據(jù)是“弱結構化”+“弱身份”的。
人們在聊天工具里產(chǎn)生的數(shù)據(jù),例如“QQ簽名”、“微信朋友圈”,是很隨性的,基本上沒有什么規(guī)律,屬于標準的非結構化數(shù)據(jù),用起來也是難度最高。但是你會問,QQ、微信這類這都是實名制的聊天工具,怎么還是弱身份的呢?這里解釋一下,根據(jù)相關法律,公民聊天內容是絕對的隱私,騰訊沒有辦法直接查看和利用你的個人聊天數(shù)據(jù)。騰訊只是金礦的看門人。。。然而,這里有一個很巧妙的玩法——騰訊可以使用某些“頻率數(shù)據(jù)”。例如,機器可以根據(jù)數(shù)據(jù)輕易總結出:人們在微信朋友圈里,說的最多的關鍵詞有哪些;在QQ上人們傳閱的文件里,有哪些頻率最高。在QQ瀏覽器上,有哪個網(wǎng)址最受歡迎。

于是,這類數(shù)據(jù)就和具體身份脫鉤了,成為了脫敏的“弱身份數(shù)據(jù)”。別看是“弱結構化”+“弱身份”,兩個弱,但是這類數(shù)據(jù)的量卻是非常龐大的。所以,騰訊不小心掌握了一種上帝視角的“超能力”——知道這個國家的人們每時每刻最關心的是什么事情。這對于騰訊新聞、騰訊視頻之類的內容創(chuàng)作者來說都是非常有用的數(shù)據(jù)——他們可以根據(jù)大家關心的熱點來量身定制內容。你以為騰訊視頻這幾年后來居上,拳打優(yōu)酷,腳踢愛奇藝,憑的僅僅是努力么?
除此之外,騰訊還獲得了一些額外能力。啥能力呢?不是吹牛,通過輿論感知,騰訊經(jīng)常比警察叔叔都能先知道哪個傳銷開始泛濫,還能知道哪個“老司機” App 又開始招攬乘客,甚至還能八卦出哪個工廠在頂風作案偷偷排污。。。你可以了解一下騰訊發(fā)起的“守護者計劃”——每年騰訊都通過自己的獨門絕技給警察叔叔提供壞人的線索,好多這種利用QQ、微信傳播的非法勾當都是騰訊先打110報的警。(當年我手機上珍藏的一個老司機App就是被騰訊“告老師”的。你問我怎么知道的?我去參加了守護者計劃的年度成果發(fā)布會,這個 App 就是成果之一。。。)
連人都抓了,當識到自己具有這種“感知輿論”的能力,騰訊干脆和很多監(jiān)管部門建立了合作,這種操作被他們稱為“大數(shù)據(jù)監(jiān)管”。這生意,可不是別人想做就能做的。BAT 三家的大數(shù)據(jù)能力僅僅是個例子,你可以根據(jù)這種方法來套用其他公司,就能猜到他們在用大數(shù)據(jù)做什么了。
另外
從商業(yè)的角度講,大數(shù)據(jù)的用法其實有兩個方向:1、趨利——賺錢;2、避害——少賠錢。
剛才說的騰訊“大數(shù)據(jù)監(jiān)管”就是從“避害”的角度來使用大數(shù)據(jù)的。(當然主要是直接為社會“避害”,間接為騰訊自己避害。)其實,百度和阿里巴巴也在用各自的數(shù)據(jù)“避害”。這里舉幾個例子。你可能知道“度小滿金融”,這是當年由陸奇從“百度金融”拆分演化出來的公司。理論上他們就可以用到百度的數(shù)據(jù)做“大數(shù)據(jù)風控”。例如,一個人如果在百度上搜索了好多P2P平臺的名字,甚至搜索了“不還花唄會怎樣”之類的虎狼之詞,那么系統(tǒng)就可以認定這個人的財務狀況很差,可以給他打一個風險很高的分數(shù)。這時,如果他來到平臺借錢,那么傻子才會借給他。。。再說阿里巴巴。阿里巴巴其實有一支非常強大的安全團隊,他們的日常就是用數(shù)據(jù)和智能來抵擋“羊毛黨”的進攻。他們利用大數(shù)據(jù)做人工智能學習,知道了正常用戶的習慣,反之就能歸納出羊毛黨的行為有什么反常之處。在阿里巴巴有一個神秘的系統(tǒng),叫做“霸下”,它就像一個水壩一樣,圍在整個阿里帝國之外,羊毛黨、黃牛黨99%左右的流量都直接被霸下攔掉,保衛(wèi)著“帝國”的安全。尤其在每年“雙11”,要不是有霸下,天貓的網(wǎng)站早就被羊毛黨上億的機器流量給沖垮了,巨浪滔天誰也別想剁手。
說了這么多,其實大概也是以下幾點:
1、大數(shù)據(jù)在保護你;
2、大數(shù)據(jù)在你身上得利;
3、大數(shù)據(jù)在給你提供更好的服務;
4、大數(shù)據(jù)也在不知不覺限定你的行為。
就像你和你家狗狗的關系。你細品品。
和醫(yī)療相類似,保險同樣可以利用足夠多的數(shù)據(jù)探針,對一個人了如指掌。這樣,可以做到同一個保險對不同的人收取不同保額,千人千面。例如:你的汽車告訴保險公司你的駕駛風格彪悍,保費就提高;你的起步很平順,交通違章少,保費就降低。螞蟻金服的相互寶,騰訊的微保,背后的殺手锏都是“數(shù)據(jù)”二字。
于是,我們終于走到了這個很有趣的道德困境:隱私到底值多少錢?隱私能當飯吃嗎?如果說放棄隱私可以換來整個社會的生產(chǎn)力,你會矯情地考慮考慮;那么如果放棄隱私可以救自己和他人的生命,你依然會拒絕嗎?放棄隱私的誘惑有很多,總有一款適合你。讓你淪陷的,有可能是大數(shù)據(jù)醫(yī)療,有可能是大數(shù)據(jù)保險,有可能是金錢, 有可能是性,有可能是孤獨,有可能是陪伴,有可能是快樂,也有可能是恐懼。
總結
那么,有哪些技術可以有效地保護個人隱私呢?
一個具有代表性的例子是近年來出現(xiàn)的聯(lián)邦學習技術,它可以有效地在保護個人隱私的同時發(fā)展大數(shù)據(jù)和人工智能。聯(lián)邦學習最初的設計目標就是在保障數(shù)據(jù)安全和個人隱私的前提下開展機器學習。它能夠做到各個數(shù)據(jù)擁有者的數(shù)據(jù)不出本地,通過交換加密參數(shù)聯(lián)合建模,且聯(lián)合模型的效果基本等同于將所有數(shù)據(jù)直接聚合起來建模的效果(如下圖)。

(縱向聯(lián)邦學習示意圖,Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2018. Federated Learning. Communications of The CCF, 14, 11 (2018),49-55)
總之,要想大數(shù)據(jù)發(fā)展與個人隱私保護兼得,離不開法律的完善與技術的進步。立法方面我們能做的可能很少,但作為從業(yè)者,我們可以多多關注聯(lián)邦學習等技術,共同推進大數(shù)據(jù)發(fā)展與隱私保護的和諧共存。
關注我即刻了解更多數(shù)據(jù)分析知識
更多數(shù)據(jù)分析內容
掃描碼即可了解
