最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

警惕!AI正在“吞食”你的數(shù)據(jù)

2023-11-27 14:30 作者:小唐在天下  | 我要投稿

???? 視覺中國供圖 □ 科普時報記者 陳 杰 AI大模型的熱度,已然開始從產業(yè)向日常生活滲透,并引起不小的輿論旋渦。近日,網(wǎng)友指出國內某智能辦軟件有拿用戶數(shù)據(jù)“投喂”AI之嫌,引發(fā)口水的同時,再度把公眾對AI的關注轉移到數(shù)據(jù)安全上。 身處智能時代,我們在使用或跟AI交互時,該如何保護自己的數(shù)據(jù)安全?我們的個人數(shù)據(jù)可以被AI產品或平臺隨意收集和使用嗎?科普時報記者就這些公眾關心的問題采訪了產業(yè)相關人士及行業(yè)專家。

AI普遍缺乏“營養(yǎng)”

此次輿論事件,以修改引發(fā)誤會的隱私政策并承諾不會拿用戶文檔訓練AI而暫告一段落。但清華大學人工智能研究所博士、獨到科技CEO張文浩告訴記者,“以用戶數(shù)據(jù)訓練AI,在大模型行業(yè)普遍存在?!? 今年7月份,谷歌及其AI子公司DeepMind、視頻會議平臺Zoom均因收集用戶數(shù)據(jù)用以訓練和開發(fā)AI產品而引發(fā)用戶強烈擔憂…… “數(shù)據(jù)被比作信息時代的‘石油’,重要性不言而喻?!蔽臏Y智庫研究員王超告訴記者,用于訓練數(shù)據(jù)的豐富程度和質量決定了AI的優(yōu)劣,也只有優(yōu)質海量的數(shù)據(jù)“投喂”,才能培養(yǎng)出更聰明、更先進的版本。 iEnglish智能英語學習解決方案技術研發(fā)負責人賈先好表示,2018年GPT迭代使用了1.1億學習參數(shù),到2020年GPT-3已達到驚人的1750億參數(shù)?!斑@些迭代的背后是45TB的海量文本數(shù)據(jù),AI其實是一場包含海量學習參數(shù)在內的純粹工程化的勝利?!? 當下,全球各大科技公司發(fā)布的AI大模型已超數(shù)百個,而用于訓練這些大模型的數(shù)據(jù)雖然海量但缺少精細“營養(yǎng)”,這也讓快速迭代中的AI普遍都“吃”得不怎么好。

用戶的數(shù)據(jù)“真香”

訓練AI所需的海量數(shù)據(jù),目前主要的來源包括互聯(lián)網(wǎng)抓取的數(shù)據(jù)、網(wǎng)絡百科全書、書籍文獻,以及一些開源數(shù)據(jù)集等公開數(shù)據(jù)。但新壹科技技術副總裁陳鵬認為,這些數(shù)據(jù)僅有數(shù)量優(yōu)勢,而缺少讓AI變得更聰明的高質量數(shù)據(jù)。“鑒于用戶數(shù)據(jù)的多樣性、真實性,以及個性化等特征,很多公司和機構會收集一定的用戶數(shù)據(jù)來進行訓練,提高AI模型的準確性和可靠性?!? “在AI訓練中,普遍使用的RLHF(基于人類反饋的強化學習)技術就需要在迭代過程中不斷根據(jù)人類反饋來優(yōu)化自身行為,有助于提高機器在不同場景下的泛化能力,使其行為更加符合人類期望?!睆埼暮票硎?,RLHF技術在模仿學習階段需要使用用戶的交互數(shù)據(jù)來改進其策略,這也是優(yōu)化用戶體驗的一種方式。 用戶數(shù)據(jù)之所以被AI相中,是因為這些數(shù)據(jù)的內容非常豐富,基本上涵蓋了各個領域和主題,正是AI訓練所急需的“精料”。

訓練AI要守“底線”

對于AI而言,用戶數(shù)據(jù)確實很“美味”,但對于用戶而言,過度的采集可能對個人信息安全和財產安全造成不小的威脅。 “用戶數(shù)據(jù)用于訓練AI時會被分析和解讀,并揭示出用戶諸如個人喜好、行為習慣、健康狀況等隱私信息?!标慁i表示,這些信息一旦被非法利用,就會導致用戶身份盜竊、網(wǎng)絡詐騙等情形的發(fā)生。 中國廣告主協(xié)會互聯(lián)網(wǎng)電商分會秘書長張俊良提醒,用戶數(shù)據(jù)被“投喂”給AI,非常容易帶來用戶核心信息的泄漏。“所以,我們在使用大模型或者跟大模型交互時,盡量避免透露自己的隱私信息?!? 用戶數(shù)據(jù)可以用于AI訓練嗎?陳鵬認為,過度收集用戶數(shù)據(jù)不可避免地會面臨諸如隱私安全、數(shù)據(jù)合規(guī)性的挑戰(zhàn)?!安贿^,現(xiàn)在行業(yè)內已經(jīng)開始通過數(shù)據(jù)脫敏、加密技術和審計技術等來保護用戶數(shù)據(jù)隱私了?!? 賈先好表示,在數(shù)據(jù)的生產、保存、讀取、更改、遷移、存檔等生命周期內,AI企業(yè)應該采取相應的安全措施,以確保這些數(shù)據(jù)不會被未經(jīng)授權的訪問、篡改或者濫用。 其實,今年8月15日起實施的《生成式人工智能服務管理暫行辦法》就明確,應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)和基礎模型;涉及個人信息的,應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。 張文浩建議,各大科技公司應遵守相關法律法規(guī),確保數(shù)據(jù)收集、處理和使用的合法性?!翱傊?,企業(yè)在做AI訓練時,應嚴格遵循個人數(shù)據(jù)使用‘最小化原則’,要守得住‘底線’?!? 王超則認為,《生成式人工智能服務管理暫行辦法》給國內AI產業(yè)指明了方向,也劃定了范圍。“但僅憑一部暫行辦法并不能解決所有問題,AI是一次底層的技術革命,未來一定會碰到更多的問題,這就需要監(jiān)管部門及時有效制定出監(jiān)管措施,進一步規(guī)范產業(yè)的發(fā)展。”

警惕!AI正在“吞食”你的數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
临武县| 云林县| 余江县| 晋中市| 南陵县| 游戏| 连云港市| 阿尔山市| 长宁区| 临安市| 伊宁县| 铁力市| 行唐县| 沁水县| 铜山县| 贵德县| 民勤县| 阿拉善右旗| 丰城市| 沈丘县| 和田市| 大竹县| 北宁市| 德安县| 长春市| 奎屯市| 龙南县| 寿光市| 永新县| 阿拉尔市| 弥勒县| 信宜市| 溧阳市| 启东市| 宁远县| 大埔县| 酒泉市| 弥勒县| 桑植县| 乐亭县| 积石山|