最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

使用合成數據訓練大模型的介紹和案例

2023-07-06 11:46 作者:AI研習所  | 我要投稿

開發(fā)成功的AI和機器學習模型通常需要大量高質量的數據,但是收集這樣的數據并不容易。


因為很多AI/機器學習模型所解決的業(yè)務問題場景,都涉及到需要訪問敏感的客戶數據,比如說個人身份信息和健康信息等等。


首先是收集和使用敏感數據會引起隱私問題,也會容易受到信息泄露的影響。因此,很多法律條例都限制了個人數據的收集和使用,嚴重者還會予以罰款等處罰措施。


其次,有些類型的數據收集成本很高,或者數據非常罕見。例如,為自動駕駛汽車收集代表各種現實世界道路事件的數據,可能非常昂貴。再例如,銀行欺詐是較為不常見的事件例子,收集足夠的數據來開發(fā)ML模型從而預測欺詐性交易是非常有難度的。


然而,與收集大型數據集相比,生成合成數據的成本低廉,并且可以支持AI/深度學習模型或軟件測試,并且不會損害客戶隱私。


事實上,目前合成數據的量已經相當可觀了,2020年,AI 生成的合成數據已經超過了真實數據,預計到 2030 年將進一步擴大。據估計,到2024年,60%用于開發(fā) AI 和分析項目的數據將都是合成生成的。



什么是合成數據?


顧名思義,就是人工創(chuàng)造出來的數據,而不是由實際事件產生的數據。它通常是在算法的幫助下創(chuàng)建的。能夠廣泛的應用在各種場景中,包括作為新產品和工具的測試數據。用于模型實驗以及AI模型訓練。合成數據也是數據增強的一種。


為什么現在合成數據很重要?

當現有真實數據無法提供特定需求或條件時,合成數據就被生成出來,可以代替真實數據進行使用。


比如說,當隱私要求限制數據可用性或何如使用數據的時候;當測試即將發(fā)布的產品需要數據,而這些數據要么不存在,要么測試人員無法獲得的時候;當機器學習算法需要訓練數據,但是生成真是數據特別特別昂貴的時候。


雖然合成數據最早是在90年代開始使用的,但2010年才開始使用,直至今日,以豐富的計算能力和存儲空間,使得合成數據得到更加廣泛的應用。


可以從合成數據中受益的行業(yè):

  • 汽車機器人
  • 金融服務
  • 醫(yī)療保健
  • 制造業(yè)
  • 安全行業(yè)
  • 社交媒體

可以從合成數據中受益的業(yè)務功能包括:

  • 市場營銷
  • 機器學習
  • 敏捷開發(fā)
  • 人力資源

合成數據和真是數據的性能對比

衡量數據質量最直接的標準,就是數據在應用程序中使用時的有效性。機器學習是當今數據最常見的用例之一。


麻省理工學院的科學家們想要衡量,來自合成數據的機器學習模型是否能像來自真實數據的模型一樣表現出色。在研究中,他們將數據科學家分為兩組:一組使用合成數據,另一組使用真實數據。170%的時間里,使用合成數據的那一組能夠產生與使用真實數據的那一組相當的結果。這將使合成數據比其他隱私增強技術(pet)(如數據屏蔽和匿名化)更具優(yōu)勢。


合成數據的好處


  • 克服實際數據使用限制:由于隱私規(guī)則或其他法規(guī),實際數據可能存在使用限制。合成數據可以在不暴露真實數據的情況下復制真實數據的所有重要統(tǒng)計屬性,從而消除了這個問題。
  • 創(chuàng)建數據來模擬尚未遇到的情況:在真實數據不存在的情況下,合成數據是唯一的解決方案。對一些常見統(tǒng)計問題的免疫力:這些問題可以包括項目無響應、跳過模式和其他邏輯約束。
  • 關注關系:合成數據旨在保留變量之間的多元關系,而不是單獨的特定統(tǒng)計數據。

這些好處表明,隨著我們的數據變得更加復雜和更加嚴密的保護,合成數據的創(chuàng)建和使用只會越來越多。

雖然能夠生成模擬真實實物的數據,似乎是一種能夠無限制的創(chuàng)建測試和開發(fā)場景的的方式。但是需要注意的是,任何從數據中衍生出來的合成模型都只能復制數據的特定屬性,這意味著它們最終只能模擬一般趨勢。


合成數據的生成和創(chuàng)建

在確定創(chuàng)建合成數據的最佳方法前,重要的是要首先考慮您的目標是擁有什么類型的合成數據。有三大類可供選擇,每種都有不同的優(yōu)點和缺點:

  • 完全合成:此數據不包含任何原始數據。這意味著對任何單個單元的重新識別幾乎是不可能的,所有變量仍然是完全可用的。
  • 部分合成:只將敏感的數據替換為合成數據。這需要對 imputation 模型有很大的依賴。這導致模型依賴性降低,但確實意味著由于數據集中保留的真實值,可能會有一些披露。
  • 混合合成(Hybrid Synthetic):混合合成數據來源于真實數據和合成數據。在保證數據集中其他變量之間的關系和完整性的同時,調查原始數據的底層分布,形成每個數據點的最近鄰居。為真實數據的每條記錄選擇合成數據中的一條近記錄,然后將兩者連接起來生成混合數據。


構建合成數據的兩種通用策略包括:

  • 從分布中抽取數字:這種方法通過觀察真實的統(tǒng)計分布和再現假數據來工作。這也可以包括生成模型的創(chuàng)建。
  • 基于 agent 的建模:為了在這種方法中實現合成數據,創(chuàng)建一個模型來解釋觀察到的行為,然后使用相同的模型再現隨機數據。它強調理解智能體之間的相互作用對整個系統(tǒng)的影響。
  • 深度學習模型:變分自編碼器(Variational autoencoder)和生成對抗網絡(generative adversarialnetwork, GAN)模型是合成數據生成技術,通過向模型提供更多數據來提高數據效用。

合成數據的挑戰(zhàn)

盡管合成數據有各種好處,可以簡化組織的數據科學項目,但它也有局限性:

  • 異常值可能缺失:合成數據只能模擬真實世界的數據,它并不是真實世界的精確復制品。因此,合成數據可能無法覆蓋原始數據所具有的一些異常值。然而,數據中的異常值可能比常規(guī)數據點更重要,正如 Nassim Nicholas Taleb 在他的書《黑天鵝》中深入解釋的那樣。
  • 模型的質量取決于數據源:合成數據的質量與輸入數據和數據生成模型的質量高度相關。合成數據可能會反映源數據中的偏差用戶接受度更具有挑戰(zhàn)性:合成數據是一個新興的概念,以前沒有目睹其好處的用戶可能不會接受它是有效的。
  • 合成數據的生成需要時間和精力:雖然合成數據比實際數據更容易創(chuàng)建,但合成數據也不是免費的。
  • 輸出控制是必要的:特別是在復雜的數據集中,確保輸出準確的最佳方法是將合成數據與真實數據或人工注釋的數據進行比較。這是因為當試圖在原始數據集中復制復雜性時合成數據可能會出現不一致的情況。

使用合成數據訓練大模型的介紹和案例的評論 (共 條)

分享到微博請遵守國家法律
尼勒克县| 奎屯市| 贺州市| 石嘴山市| 青神县| 定结县| 明光市| 凤凰县| 玉溪市| 英德市| 宁乡县| 克什克腾旗| 西安市| 焉耆| 长顺县| 越西县| 荔波县| 唐海县| 准格尔旗| 马公市| 蕉岭县| 潜江市| 万安县| 石门县| 清镇市| 临泉县| 富锦市| 泊头市| 永德县| 介休市| 高清| 宽城| 太仆寺旗| 靖江市| 大邑县| 伊金霍洛旗| 沾益县| 霍林郭勒市| 分宜县| 琼海市| 昭苏县|