算法預測過于精準,會觸碰道德底線嗎?


機器學習可以探知你的許多秘密——包括最敏感的信息,比如預測你的性取向、是否懷孕、是否要辭掉工作,或者可能命不久矣。? ??
那么,機器是真的“知道”你的秘密,還是僅靠猜測?如果機器只是像人一樣進行推測,那這么精確有錯嗎???????
讓我們來看幾個例子:? ? ?
美國塔吉特百貨(Target)對孕婦的預測,或許是算法探知人類秘密最知名的用例之一。2012年,《紐約時報》的一篇文章講述了企業(yè)可以如何利用手中的數(shù)據(jù),文章中有一則趣聞:一名父親看到塔吉特百貨給女兒發(fā)送帶有明顯指向性的嬰兒用品優(yōu)惠券,才得知十幾歲的女兒懷孕了。
這個故事可能是虛構(gòu)的,即便真發(fā)生過,根據(jù)文章對塔吉特百貨工作流程的詳細解讀來看,也可能只是巧合,而非預測性分析。不過,預測技術(shù)的確存在隱私風險。畢竟,如果一家公司的市場部門能夠預測出誰懷孕,就代表其查看了非自愿提供的敏感醫(yī)療數(shù)據(jù),但其實只有受過專業(yè)培訓的醫(yī)護人員才能妥善處理和保密這類數(shù)據(jù)。
此類信息的獲取途徑如果得不到妥善管理,將對個人生活產(chǎn)生巨大影響。一名擔憂的市民在網(wǎng)上指出,設想一名孕婦,“工作不穩(wěn)定,而且還沒有申請好產(chǎn)假期間的政府福利……此時被曝光懷孕,可能會令她失去生產(chǎn)補助金(約2萬美元)、產(chǎn)假福利(約1萬至5萬美元),甚至丟掉工作?!? ? ?
這不是數(shù)據(jù)處理不當、泄露或被竊取的問題,而是產(chǎn)生新的數(shù)據(jù)——即間接發(fā)現(xiàn)人們不愿意披露的真相。企業(yè)可以通過現(xiàn)有的數(shù)據(jù)進行預測,見微知著,從而獲得有力的洞察。??????
因此,預測模型的表現(xiàn)過于優(yōu)異,是否反而對我們不利?我們知道,模型預測不準確會造成損失,但過于準確是否也不太好?
即便本身準確性不高,模型仍然可以對特定人群的懷孕情況做出準確預測。假設18歲至40歲之間的女性顧客中有2%是孕婦,如果模型能夠找出顧客中懷孕可能性高于平均水平3倍的人,其中只有6%是孕婦,這樣一來預測準確性就提升到了原本的3倍。若是進一步縮小范圍,比如鎖定最可能懷孕的前0.1%人群,預測準確性會更高,如果提升到原來的46倍,那么這其中可能有92%的人是孕婦。在這種情況下,系統(tǒng)足以識別出非??赡軕言械呐?。? ? ?
同樣的概念也適用于預測性取向、種族、健康狀況、定位和離職意向。即便一個模型綜合來講不是很準確,但針對相對有限的群體,也可能準確地預測到這些信息。因為人群中總有一小部分人的相關(guān)信息更加易于探測?,F(xiàn)在的技術(shù)或許只能準確預測相對較小的群體,但即便是100萬人里前0.1%的群體,也意味著有1000個人的情況是可以被預測的。? ? ?
很好理解人們?yōu)槭裁床幌胱屍渌酥肋@些信息。2013年惠普預測將有超過30萬員工可能離職——相關(guān)指標被惠普稱為逃跑風險(Flight Risk)指數(shù),并被提交給管理者。如果計劃離職,你大概不會想在正式提出之前讓領(lǐng)導知道。? ? ?
還有一個例子,人臉識別技術(shù)可以用于追蹤定位,涉及一個人悄無聲息轉(zhuǎn)移地點的基本自由,比如公共場所放置的監(jiān)控就能夠識別出某人在某一時間段在某個特定地點。我當然不是指責人臉識別技術(shù),但微軟和谷歌的CEO都因這個原因而反對這項技術(shù)。??????
再比如,一家咨詢公司為人力資源部門制作了預測員工流失情況的模型,并表示可以預測員工死亡狀況,因為這也是造成員工流失的一個因素。人力資源部門回應道,“不要給我們看這個!”他們并不想承擔預知哪些員工可能馬上面臨死亡威脅而帶來的責任。? ? ?
研究表明,預測性模型還可以通過Facebook點贊等痕跡,識別出其他隱私屬性——比如種族和民族。需要擔心的是市場營銷人員會如何利用此類預測。哈佛大學政府和技術(shù)專業(yè)教授拉坦婭·斯威尼(Latanya Sweeney)說,“最后,網(wǎng)上的廣告會帶有針對性。你不會想讓新手媽媽看釣魚竿廣告,而讓釣魚的人看紙尿布的廣告。問題是這種針對性什么時候會越過精準營銷的界限,對整個群體產(chǎn)生負面影響?”的確,斯威尼的一項研究表明,用谷歌搜索“聽起來像黑人”的名字時,彈出廣告暗示這個人有犯罪前科的幾率比搜索其他姓名時高出25%,即便廣告商的逮捕記錄庫中并沒有叫這個名字的人。? ? ?
“如果創(chuàng)造一項可以分辨出種族的技術(shù),就可能有人用其去壓迫這個種族的人?!泵绹鴨讨味卮髮W法學院隱私及技術(shù)中心高級經(jīng)理克萊爾·加維(Clare Garvie)說。? ? ?
利用預測性技術(shù)對不同民族實施差別對待,將風險提升到了一個新水平。麻省理工學院深度學習研究員喬納森·弗蘭克(Jonathan Frankle)提醒說,這種趨勢可能會蔓延到多個地區(qū)?!拔艺J為將這種技術(shù)視為對民主的威脅并不過分。一旦國家采用這種嚴重的威權(quán)模式,就會利用數(shù)據(jù),以一種更根深蒂固的方式來強行灌注思想和規(guī)則……從這個意義上說,我們正在稀里糊涂地步入這場緊急危機?!??????
給機器學習所追求的預測性目標劃清道德界限,是一個艱巨的挑戰(zhàn),要準確劃定應該立法禁止的部分(如果有的話)更是難上加難。但是,我們至少要保持警惕,注意機器學習何時會助長早已存在的不道德行為,以及要何時小心處理其產(chǎn)生的數(shù)據(jù)。
艾瑞克·西格爾(Eric Siegel)| 文
艾瑞克·西格爾博士是知名顧問,曾于哥倫比亞大學任教,將機器學習講得通俗易懂、引人入勝。他是“預測分析世界”(Predictive Analytics World)與“深度學習的世界”(Deep Learning World)系列會議的創(chuàng)始人,也是Coursera機器學習公開課講師。他是一位受歡迎的演講者,曾受邀發(fā)表過100多場主旨演講,也是《機器學習時報》(The Machine Learning Times)執(zhí)行主編。他著有暢銷書《預測性分析:預知誰會點擊、購買、撒謊或死亡的魔力》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die)。??????
柴茁 | 譯 蔣薈蓉 | 校 孫燕 | 編輯