散文網(wǎng) » 生活 »日常 » 警惕！AI正在“吞食”你的數(shù)據(jù)

警惕！AI正在“吞食”你的數(shù)據(jù)

2023-11-27 14:30 作者:小唐在天下 0人讀過 | 我要投稿

???? 視覺中國供圖 □ 科普時報記者陳杰 AI大模型的熱度，已然開始從產業(yè)向日常生活滲透，并引起不小的輿論旋渦。近日，網(wǎng)友指出國內某智能辦軟件有拿用戶數(shù)據(jù)“投喂”AI之嫌，引發(fā)口水的同時，再度把公眾對AI的關注轉移到數(shù)據(jù)安全上。身處智能時代，我們在使用或跟AI交互時，該如何保護自己的數(shù)據(jù)安全？我們的個人數(shù)據(jù)可以被AI產品或平臺隨意收集和使用嗎？科普時報記者就這些公眾關心的問題采訪了產業(yè)相關人士及行業(yè)專家。

AI普遍缺乏“營養(yǎng)”

此次輿論事件，以修改引發(fā)誤會的隱私政策并承諾不會拿用戶文檔訓練AI而暫告一段落。但清華大學人工智能研究所博士、獨到科技CEO張文浩告訴記者，“以用戶數(shù)據(jù)訓練AI，在大模型行業(yè)普遍存在?！? 今年7月份，谷歌及其AI子公司DeepMind、視頻會議平臺Zoom均因收集用戶數(shù)據(jù)用以訓練和開發(fā)AI產品而引發(fā)用戶強烈擔憂…… “數(shù)據(jù)被比作信息時代的‘石油’，重要性不言而喻?！蔽臏Y智庫研究員王超告訴記者，用于訓練數(shù)據(jù)的豐富程度和質量決定了AI的優(yōu)劣，也只有優(yōu)質海量的數(shù)據(jù)“投喂”，才能培養(yǎng)出更聰明、更先進的版本。 iEnglish智能英語學習解決方案技術研發(fā)負責人賈先好表示，2018年GPT迭代使用了1.1億學習參數(shù)，到2020年GPT-3已達到驚人的1750億參數(shù)?！斑@些迭代的背后是45TB的海量文本數(shù)據(jù)，AI其實是一場包含海量學習參數(shù)在內的純粹工程化的勝利?！? 當下，全球各大科技公司發(fā)布的AI大模型已超數(shù)百個，而用于訓練這些大模型的數(shù)據(jù)雖然海量但缺少精細“營養(yǎng)”，這也讓快速迭代中的AI普遍都“吃”得不怎么好。

用戶的數(shù)據(jù)“真香”

訓練AI所需的海量數(shù)據(jù)，目前主要的來源包括互聯(lián)網(wǎng)抓取的數(shù)據(jù)、網(wǎng)絡百科全書、書籍文獻，以及一些開源數(shù)據(jù)集等公開數(shù)據(jù)。但新壹科技技術副總裁陳鵬認為，這些數(shù)據(jù)僅有數(shù)量優(yōu)勢，而缺少讓AI變得更聰明的高質量數(shù)據(jù)。“鑒于用戶數(shù)據(jù)的多樣性、真實性，以及個性化等特征，很多公司和機構會收集一定的用戶數(shù)據(jù)來進行訓練，提高AI模型的準確性和可靠性?！? “在AI訓練中，普遍使用的RLHF（基于人類反饋的強化學習）技術就需要在迭代過程中不斷根據(jù)人類反饋來優(yōu)化自身行為，有助于提高機器在不同場景下的泛化能力，使其行為更加符合人類期望?！睆埼暮票硎?，RLHF技術在模仿學習階段需要使用用戶的交互數(shù)據(jù)來改進其策略，這也是優(yōu)化用戶體驗的一種方式。用戶數(shù)據(jù)之所以被AI相中，是因為這些數(shù)據(jù)的內容非常豐富，基本上涵蓋了各個領域和主題，正是AI訓練所急需的“精料”。

訓練AI要守“底線”

對于AI而言，用戶數(shù)據(jù)確實很“美味”，但對于用戶而言，過度的采集可能對個人信息安全和財產安全造成不小的威脅。 “用戶數(shù)據(jù)用于訓練AI時會被分析和解讀，并揭示出用戶諸如個人喜好、行為習慣、健康狀況等隱私信息?！标慁i表示，這些信息一旦被非法利用，就會導致用戶身份盜竊、網(wǎng)絡詐騙等情形的發(fā)生。中國廣告主協(xié)會互聯(lián)網(wǎng)電商分會秘書長張俊良提醒，用戶數(shù)據(jù)被“投喂”給AI，非常容易帶來用戶核心信息的泄漏。“所以，我們在使用大模型或者跟大模型交互時，盡量避免透露自己的隱私信息?！? 用戶數(shù)據(jù)可以用于AI訓練嗎？陳鵬認為，過度收集用戶數(shù)據(jù)不可避免地會面臨諸如隱私安全、數(shù)據(jù)合規(guī)性的挑戰(zhàn)?！安贿^，現(xiàn)在行業(yè)內已經(jīng)開始通過數(shù)據(jù)脫敏、加密技術和審計技術等來保護用戶數(shù)據(jù)隱私了?！? 賈先好表示，在數(shù)據(jù)的生產、保存、讀取、更改、遷移、存檔等生命周期內，AI企業(yè)應該采取相應的安全措施，以確保這些數(shù)據(jù)不會被未經(jīng)授權的訪問、篡改或者濫用。其實，今年8月15日起實施的《生成式人工智能服務管理暫行辦法》就明確，應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動，使用具有合法來源的數(shù)據(jù)和基礎模型；涉及個人信息的，應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。張文浩建議，各大科技公司應遵守相關法律法規(guī)，確保數(shù)據(jù)收集、處理和使用的合法性?！翱傊?，企業(yè)在做AI訓練時，應嚴格遵循個人數(shù)據(jù)使用‘最小化原則’，要守得住‘底線’?！? 王超則認為，《生成式人工智能服務管理暫行辦法》給國內AI產業(yè)指明了方向，也劃定了范圍。“但僅憑一部暫行辦法并不能解決所有問題，AI是一次底層的技術革命，未來一定會碰到更多的問題，這就需要監(jiān)管部門及時有效制定出監(jiān)管措施，進一步規(guī)范產業(yè)的發(fā)展。”

標簽：

警惕！AI正在“吞食”你的數(shù)據(jù)的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

警惕！AI正在“吞食”你的數(shù)據(jù)

警惕！AI正在“吞食”你的數(shù)據(jù)的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

警惕！AI正在“吞食”你的數(shù)據(jù)

本文作者的其他文章

警惕！AI正在“吞食”你的數(shù)據(jù)的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

警惕！AI正在“吞食”你的數(shù)據(jù)

警惕！AI正在“吞食”你的數(shù)據(jù)的評論 (共條)