最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

提效神器!10%標注數(shù)據(jù),比肩全量標注的模型效果!

2023-11-16 11:25 作者:飛槳PaddlePaddle  | 我要投稿

不知道大家有沒有遇到過數(shù)據(jù)標注成本高、周期長的困擾,有沒有那么一種可能,精心標注少量的數(shù)據(jù),配合大量的無標注數(shù)據(jù),就能達到比肩全量標注的模型精度呢?是的,PaddleX就帶來了這樣一款提效神器——大模型半監(jiān)督學習工具。 大模型半監(jiān)督學習工具利用

視覺大模型的強大特征表征能力

PaddleX的特色半監(jiān)督學習方法

,其可以在少量有標注數(shù)據(jù)和大量無標注數(shù)據(jù)的混合數(shù)據(jù)上學習到更好的特征,從而得到超高精度的大模型,不僅如此,該工具內(nèi)置了蒸餾和微調(diào)小模型的方法,進一步可以得到精度更高的小模型。為了驗證該工具的有效性,我們測試了其在公開數(shù)據(jù)集的指標。最終,該工具刷新了圖像分類(ImageNet 10%有標注)、目標檢測(COCO 10%有標注)的半監(jiān)督學習SOTA精度。 該工具有以下幾個特點,如果正合您的需求,歡迎嘗試使用!

減少標注數(shù)據(jù):

該工具對CLIP等視覺大模型的下游任務(wù)訓練進行了調(diào)優(yōu),通過相關(guān)配置和預訓練權(quán)重設(shè)置,其可以在少量有標注數(shù)據(jù)上學習到目標場景的圖像特征,和其他模型相比,達到相同精度時所需要的有標注的數(shù)據(jù)更少。且該工具集成了更好的半監(jiān)督學習算法,可以更好地利用無標注數(shù)據(jù)從而進一步降低標注數(shù)據(jù)的需求。

提高模型精度:

該工具使用大模型在更多無標簽數(shù)據(jù)循環(huán)迭代訓練,可以得到精度更高的大模型。與此同時,使用該大模型和無標簽數(shù)據(jù),可以更好地將大模型學習到的知識傳授給小模型,從而提升小模型精度。

減少模型研發(fā)成本:

該工具提供了UI界面,工具內(nèi)置算法的很多關(guān)鍵參數(shù)均已在前端展現(xiàn),用戶可以直接在前端頁面調(diào)試參數(shù),通過簡單地點擊UI頁面上的按鈕即可完成精度更高的模型的研發(fā),大大提升研發(fā)高精度模型的效率。

提升模型推理速度:

該工具內(nèi)置了不同推理耗時的精選小模型,用戶可以根據(jù)實際需要選擇速度更快的小模型,從而提升最終的推理速度(該工具可以得到精度相近但是參數(shù)量更小、推理速度更快的模型)。

目前,該工具支持圖像分類、目標檢測、OCR識別三類視覺任務(wù)17個模型,大家無需關(guān)心細節(jié),只需提供更多無標注數(shù)據(jù),點擊兩次按鈕,即可得到高精度的大模型和小模型。下面我們一起看下三大工具的超能力!

效果展示

圖像分類-大模型半監(jiān)督學習工具

公開數(shù)據(jù)集

該工具在公開數(shù)據(jù)集ImageNet 10%數(shù)據(jù)上進行了驗證。使用該工具后,在 ImageNet 10% 有標簽數(shù)據(jù)+90%無標簽數(shù)據(jù)上,大模型相比直接訓練,精度高

1.2

個百分點(

84.2%->85.4%

),不僅如此,同時超越了當前半監(jiān)督學習SOTA方案(

85.1%->85.4%

);小模型(ResNet50)相比直接訓練,精度高了

26

個百分點以上(

54%->80.3%

),即使和當前ResNet50在該數(shù)據(jù)集的半監(jiān)督學習SOTA比,也高了將近

3

個百分點(

77.5%->80.3%

),不僅如此,甚至比該模型在ImageNet全量數(shù)據(jù)訓練的精度高

4

個百分點(廣泛使用的精度為

76.3%

)。

場景數(shù)據(jù)集

除了驗證公開數(shù)據(jù)集,我們還在8個圖像分類的場景數(shù)據(jù)進行了驗證。相比直接訓練,使用該工具后,大模型和小模型的精度均有大幅提升。

立即在線體驗:

https://aistudio.baidu.com/projectdetail/paddlex/7045718

目標檢測-大模型半監(jiān)督學習工具

公開數(shù)據(jù)集

該工具在公開數(shù)據(jù)集COCO 10%數(shù)據(jù)上進行了驗證。下圖展示了該工具在公開數(shù)據(jù)集COCO 10%的指標情況。使用該工具后,在COCO 10%有標簽數(shù)據(jù)+90%無標簽數(shù)據(jù)上,大模型(RT-DETR-H)相比直接訓練,mAP高了

3.5

個百分點(

47.7%->51.2%

),刷新了該數(shù)據(jù)集的半監(jiān)督學習

SOTA(43.5%->51.2%)

。小模型(PP-PicoDet_s_320_LCNet)相比直接訓練,mAP高了

13

個百分點以上(

18.3%->32.0%

),接近全量有標注數(shù)據(jù)訓練的結(jié)果(

32.5%

)。

場景數(shù)據(jù)集

除了驗證公開數(shù)據(jù)集,我們還在3個不同的目標檢測的場景數(shù)據(jù)進行了驗證,下面展示了目標檢測應(yīng)用中的3個場景使用該工具后的效果,可以看到,在不同的場景中,大模型和小模型的mAP均有大幅提升。

立即在線體驗:

https://aistudio.baidu.com/projectdetail/paddlex/7045736

文本識別-大模型半監(jiān)督學習工具

在OCR文本識別中,我們使用該工具驗證了兩個常見的任務(wù),即手寫字體識別和通用OCR識別。使用該工具后,大模型和小模型的精度均有大幅提升。

立即體驗: https://aistudio.baidu.com/projectdetail/paddlex/7045737

技術(shù)思路

大模型半監(jiān)督學習工具借助了CLIP等視覺大模型或多模態(tài)大模型的強大特征預訓練,將其在有標注數(shù)據(jù)上微調(diào)得到一個確定場景的大模型,然后將其不斷在無標注數(shù)據(jù)和有標注數(shù)據(jù)的混合數(shù)據(jù)上循環(huán)訓練,得到一個在該場景中精度高的大模型。在此基礎(chǔ)上,通過兩階段知識蒸餾或微調(diào),借助更多的數(shù)據(jù),將大模型強大的知識傳授給小模型,從而得到一個速度快且精度高的小模型。整體流程如下:

為了讓大模型半監(jiān)督學習工具在不同任務(wù)上有較好的泛化性,PaddleX團隊在圖像分類、目標檢測、OCR識別任務(wù)上分別進行了廣泛的針對性適配和調(diào)優(yōu),每個工具的算法細節(jié)都不盡相同。不僅如此,為了大家使用方便,我們發(fā)布的三個不同視覺任務(wù)的大模型半監(jiān)督學習工具盡可能保持了使用方式上的統(tǒng)一。

結(jié)語

PaddleX是面向國內(nèi)外主流AI硬件的,全流程、高效率的飛槳精選AI模型的一站式AI開發(fā)套件。PaddleX的使命是助力AI技術(shù)快速落地,愿景是使人人成為AI Developer!

大模型半監(jiān)督學習工具已重磅上線PaddleX!快來體驗這款提效神器吧! 加入PaddleX官方頻道,和大家一起討論開發(fā)經(jīng)驗,傳送門:

https://aistudio.baidu.com/community/channel/610

提效神器!10%標注數(shù)據(jù),比肩全量標注的模型效果!的評論 (共 條)

分享到微博請遵守國家法律
吉首市| 永嘉县| 连平县| 永修县| 承德市| 大足县| 溆浦县| 阳山县| 宝山区| 普兰店市| 广宁县| 湾仔区| 沿河| 潞西市| 锡林浩特市| 台山市| 安达市| 漳平市| 望奎县| 扬中市| 九江县| 潮安县| 平远县| 建德市| 巴马| 静海县| 三原县| 台北市| 余干县| 浮梁县| 长阳| 濮阳县| 昌图县| 分宜县| 秦皇岛市| 拉孜县| 红河县| 卓资县| 顺昌县| 浦北县| 衢州市|