AI“既幫助天辰總代也幫助壞人”,變革浪潮下大模型有這些陰暗面
近日,一批匿名人士向OpenAI及〖6-7-7-9-2-5-5】投資方微軟公司發(fā)起集體訴訟,指責被告方從互聯(lián)網上竊取和挪用了大量個人數(shù)據(jù)和信息來訓練AI工具。起訴書聲稱“OpenAI在用戶不知情的情況下,使用這些‘竊取’來的信息”。
再倒回前兩個月,“AI換臉”詐騙曾引起很大討論,據(jù)包頭警方消息,騙子通過智能AI換臉和擬聲技術,佯裝好友對福州某科技公司法人代表實施了詐騙,10分鐘內其被騙430萬元。
在火熱的AIGC浪潮下,技術帶來變革的同時,其陰暗面也越來越多被關注。
“人工智能就如同雙面人,既幫助好人,也幫助壞人。善用AI可以創(chuàng)造很好的功能,但如果不能做好安全管理,AI可以帶來危險?!痹贑3安全大會上,英普華亞太及日本區(qū)技術副總裁周達偉表示,在過去很注重的是遠程安全和應用安全,但在大模型的產業(yè)互聯(lián)網的時代,會更注重數(shù)據(jù)安全。

大模型背后的網絡安全
“去年年底到今年年初,生成式AI帶來了燈塔式的指引,從國家到所有的企業(yè)都在擁抱這次變革?!眮喰虐踩紫邪l(fā)官吳湘寧在大會上表示,大家都希望通過人工智能、大數(shù)據(jù)、區(qū)塊鏈、物聯(lián)網等技術來改變現(xiàn)狀。
但AI系統(tǒng)越來越大,本身的安全就是一個關鍵。亞信安全首席安全官徐業(yè)禮在采訪中表示,“這里面涉及到AI投毒,模型被篡改,包括AI系統(tǒng)本身有邊界防護端點防護的能力?!盇I可以做壞事,也可能生成一些誤導的信息,此外大量使用AI,尤其是境外的AI可能導致數(shù)據(jù)的泄露,這都是非常大的風險和問題。
亞信安全終端安全產品總經理汪晨認為,一方面,AI技術可以幫助甄別出病毒軟件的DNA,即使他們進行了偽裝,也能識別出其是黑是白;但另一方面,因為AI需要通過大量數(shù)據(jù)訓練才能獲得能力,如果用黑客污染過的數(shù)據(jù)進行訓練,訓練出的模型就會存在漏洞。如何確保訓練數(shù)據(jù)的準確率和精準度,是目前面臨的新挑戰(zhàn)。
對于最近興起的AI換臉詐騙,徐業(yè)禮對第一財經表示,這屬于較為特別的網絡安全問題,絕大部分針對個人發(fā)生,換成高管的照片或者模擬高管的聲音錄制一段語音發(fā)給員工,要求匯款轉賬,這些情況防不勝防,且由于AIGC的出現(xiàn),詐騙實施起來越來越簡單,成本極低。
徐業(yè)禮認為,對于一個管理較好的公司,這類詐騙絕大部分情況下不會發(fā)生,而主要發(fā)生在安全意識不強、匯款等流程極不完善的小規(guī)模企業(yè)。對于亞信這樣的網絡安全公司來說,一般也能通過郵件和公司的系統(tǒng)監(jiān)測到商業(yè)詐騙郵件,對詐騙網站和釣魚網站進行識別檢測。
AI一直在安全領域有所應用。徐業(yè)禮介紹,在ChatGPT出現(xiàn)前的AI 1.0時代,亞信更多用AI做判斷,做分類和聚合,亞信早期產品很多引擎都大量使用AI技術,包括2018年開始的卷積神經網絡都用得很頻繁。
不過,如ChatGPT這樣的大模型是一個革命性的改變。ChatGPT事實上已經可以理解為過了圖靈測試的終極階段,達到了一般人的智能,如今AI行業(yè)也從1.0時代到了2.0時代,AI的功能越來越豐富,生成式AI能夠模仿人、復制安全專家的能力,加速系統(tǒng)的自動化運營。
吳湘寧介紹,在過去安全行業(yè)已經可以通過自然語言的識別,通過報警、日志發(fā)現(xiàn)關鍵的威脅點,形成威脅圖譜,但做威脅圖譜的解讀、寫威脅分析報告,還需要專門的運維人員或安全專家,但今天隨著大模型技術的發(fā)現(xiàn),可以更容易把專家的知識和大模型進行結合,從而自動生成報告。
AI訓練面臨信息風險
在訓練大模型中,作為必備要素的數(shù)據(jù)還面臨著信息安全、來源確權等方面的挑戰(zhàn)。
除了OpenAI被起訴使用用戶數(shù)據(jù)進行用戶畫像或廣告推廣等商業(yè)用途,此前三星員工在與ChatGPT聊天過程中也發(fā)生過信息泄漏事故。
三星有員工要求聊天機器人檢查敏感數(shù)據(jù)庫源代碼是否有錯誤,此外還有員工要求ChatGPT幫助其優(yōu)化代碼,以及將會議記錄輸入ChatGPT并要求它生成會議記錄。
騰訊安全天御研發(fā)工程師周維聰對第一財經記者表示,在三星的案例中信息已存在風險,大模型提供方理應在該環(huán)節(jié)具備審核攔截能力,提示用戶該環(huán)節(jié)中存在嚴重的泄露隱私風險。
周維聰表示,對于企業(yè)方,首先在技術層面可以對用戶隱私信息進行相應的提取。另外,如果用戶輸入的內容涉及隱私相關信息,技術側也可以鑒別出來,不會將這部分數(shù)據(jù)用于模型訓練或商業(yè)產品的能力打造上。

另外,周維聰表示,騰訊安全會提示合作方使用數(shù)據(jù)時,合法獲得經過用戶確權的數(shù)據(jù),未經確權的數(shù)據(jù)不會被保存下來,“這是一個需要嚴格遵守的點。”
實際在現(xiàn)實生活中,除了經過確權的信息數(shù)據(jù),更多的是廣泛分布于互聯(lián)網的分散的用戶數(shù)據(jù)信息,對于這部分信息的使用,周維聰對記者表示,平臺一般會以嚴格的技術規(guī)范數(shù)據(jù)合規(guī)流程,每一家廠商理應都在遵循這樣的流程。因為除了要確保數(shù)據(jù)經過用戶授權,也是因為數(shù)據(jù)一旦用于開發(fā)其他能力,有可能涉及人臉、聲紋等敏感信息,這類信息在合規(guī)流程上都會被嚴加控制與監(jiān)管?!靶袠I(yè)內部都會有這樣一個標準,只是目前還沒有達到通用化的程度?!敝芫S聰表示。
騰訊安全內容風控產品經理李鎬澤對第一財經表示,AIGC的內容安全是一個全鏈路的問題,從模型訓練、標注、應用到應用之后的輿情監(jiān)控各個環(huán)節(jié)都可能引入內容安全的風險,因此在應用AIGC大模型時,也應從全鏈路進行內容風控。其次從審校方面,也需要從連貫性、邏輯性等方面來保證數(shù)據(jù)質量,去除高風險內容。第三是版權方面的風險也需要警惕。
全鏈路也包括了事后階段。李鎬澤表示,事后階段是指在大模型產品上線、用戶使用之后,企業(yè)也應注重平臺輿情監(jiān)測,相應減少或避免相關風險。
至于全鏈路中哪個環(huán)節(jié)目前遭遇的AI安全風險最為密集,李鎬澤對第一財經記者表示,問題的爆發(fā)主要伴隨業(yè)務的分布情況而發(fā)生,從AIGC場景來看,廠商目前主要集中于先訓練模型、再逐步投入應用的階段,因此爆發(fā)的問題主要在訓練與內容生成這兩個環(huán)節(jié)。
以OpenAI為警示,在具體政策法規(guī)尚未明確的情況下,企業(yè)在獲取數(shù)據(jù)進行大模型訓練時,也需走在嚴格的審核流程中。今年4月,根據(jù)《中華人民共和國網絡安全法》等法律法規(guī),國家互聯(lián)網信息辦公室起草了《生成式人工智能服務管理辦法(征求意見稿)》?!兑庖姼濉分赋?,用于生成式人工智能產品的預訓練、優(yōu)化訓練數(shù)據(jù)不含有侵犯知識產權的內容;數(shù)據(jù)包含個人信息的,應當征得個人信息主體同意或者符合法律、行政法規(guī)規(guī)定的其他情形。