散文網(wǎng) » 科技 »數(shù)碼 » 提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！

2023-11-16 11:25 作者:飛槳PaddlePaddle 0人讀過 | 我要投稿

不知道大家有沒有遇到過數(shù)據(jù)標注成本高、周期長的困擾，有沒有那么一種可能，精心標注少量的數(shù)據(jù)，配合大量的無標注數(shù)據(jù)，就能達到比肩全量標注的模型精度呢？是的，PaddleX就帶來了這樣一款提效神器——大模型半監(jiān)督學習工具。大模型半監(jiān)督學習工具利用

視覺大模型的強大特征表征能力

和

PaddleX的特色半監(jiān)督學習方法

，其可以在少量有標注數(shù)據(jù)和大量無標注數(shù)據(jù)的混合數(shù)據(jù)上學習到更好的特征，從而得到超高精度的大模型，不僅如此，該工具內(nèi)置了蒸餾和微調(diào)小模型的方法，進一步可以得到精度更高的小模型。為了驗證該工具的有效性，我們測試了其在公開數(shù)據(jù)集的指標。最終，該工具刷新了圖像分類（ImageNet 10%有標注）、目標檢測（COCO 10%有標注）的半監(jiān)督學習SOTA精度。該工具有以下幾個特點，如果正合您的需求，歡迎嘗試使用！

減少標注數(shù)據(jù)：

該工具對CLIP等視覺大模型的下游任務(wù)訓練進行了調(diào)優(yōu)，通過相關(guān)配置和預訓練權(quán)重設(shè)置，其可以在少量有標注數(shù)據(jù)上學習到目標場景的圖像特征，和其他模型相比，達到相同精度時所需要的有標注的數(shù)據(jù)更少。且該工具集成了更好的半監(jiān)督學習算法，可以更好地利用無標注數(shù)據(jù)從而進一步降低標注數(shù)據(jù)的需求。

提高模型精度：

該工具使用大模型在更多無標簽數(shù)據(jù)循環(huán)迭代訓練，可以得到精度更高的大模型。與此同時，使用該大模型和無標簽數(shù)據(jù)，可以更好地將大模型學習到的知識傳授給小模型，從而提升小模型精度。

減少模型研發(fā)成本：

該工具提供了UI界面，工具內(nèi)置算法的很多關(guān)鍵參數(shù)均已在前端展現(xiàn)，用戶可以直接在前端頁面調(diào)試參數(shù)，通過簡單地點擊UI頁面上的按鈕即可完成精度更高的模型的研發(fā)，大大提升研發(fā)高精度模型的效率。

提升模型推理速度：

該工具內(nèi)置了不同推理耗時的精選小模型，用戶可以根據(jù)實際需要選擇速度更快的小模型，從而提升最終的推理速度（該工具可以得到精度相近但是參數(shù)量更小、推理速度更快的模型）。

目前，該工具支持圖像分類、目標檢測、OCR識別三類視覺任務(wù)17個模型，大家無需關(guān)心細節(jié)，只需提供更多無標注數(shù)據(jù)，點擊兩次按鈕，即可得到高精度的大模型和小模型。下面我們一起看下三大工具的超能力！

效果展示

圖像分類-大模型半監(jiān)督學習工具

公開數(shù)據(jù)集

該工具在公開數(shù)據(jù)集ImageNet 10%數(shù)據(jù)上進行了驗證。使用該工具后，在 ImageNet 10% 有標簽數(shù)據(jù)+90%無標簽數(shù)據(jù)上，大模型相比直接訓練，精度高

1.2

個百分點（

84.2%->85.4%

），不僅如此，同時超越了當前半監(jiān)督學習SOTA方案（

85.1%->85.4%

）；小模型（ResNet50）相比直接訓練，精度高了

26

個百分點以上（

54%->80.3%

），即使和當前ResNet50在該數(shù)據(jù)集的半監(jiān)督學習SOTA比，也高了將近

3

個百分點（

77.5%->80.3%

），不僅如此，甚至比該模型在ImageNet全量數(shù)據(jù)訓練的精度高

4

個百分點（廣泛使用的精度為

76.3%

）。

場景數(shù)據(jù)集

除了驗證公開數(shù)據(jù)集，我們還在8個圖像分類的場景數(shù)據(jù)進行了驗證。相比直接訓練，使用該工具后，大模型和小模型的精度均有大幅提升。

立即在線體驗：

https://aistudio.baidu.com/projectdetail/paddlex/7045718

目標檢測-大模型半監(jiān)督學習工具

公開數(shù)據(jù)集

該工具在公開數(shù)據(jù)集COCO 10%數(shù)據(jù)上進行了驗證。下圖展示了該工具在公開數(shù)據(jù)集COCO 10%的指標情況。使用該工具后，在COCO 10%有標簽數(shù)據(jù)+90%無標簽數(shù)據(jù)上，大模型（RT-DETR-H）相比直接訓練，mAP高了

3.5

個百分點（

47.7%->51.2%

），刷新了該數(shù)據(jù)集的半監(jiān)督學習

SOTA（43.5%->51.2%）

。小模型（PP-PicoDet_s_320_LCNet）相比直接訓練，mAP高了

13

個百分點以上（

18.3%->32.0%

）,接近全量有標注數(shù)據(jù)訓練的結(jié)果（

32.5%

）。

場景數(shù)據(jù)集

除了驗證公開數(shù)據(jù)集，我們還在3個不同的目標檢測的場景數(shù)據(jù)進行了驗證，下面展示了目標檢測應(yīng)用中的3個場景使用該工具后的效果，可以看到，在不同的場景中，大模型和小模型的mAP均有大幅提升。

立即在線體驗：

https://aistudio.baidu.com/projectdetail/paddlex/7045736

文本識別-大模型半監(jiān)督學習工具

在OCR文本識別中，我們使用該工具驗證了兩個常見的任務(wù)，即手寫字體識別和通用OCR識別。使用該工具后，大模型和小模型的精度均有大幅提升。

立即體驗： https://aistudio.baidu.com/projectdetail/paddlex/7045737

技術(shù)思路

大模型半監(jiān)督學習工具借助了CLIP等視覺大模型或多模態(tài)大模型的強大特征預訓練，將其在有標注數(shù)據(jù)上微調(diào)得到一個確定場景的大模型，然后將其不斷在無標注數(shù)據(jù)和有標注數(shù)據(jù)的混合數(shù)據(jù)上循環(huán)訓練，得到一個在該場景中精度高的大模型。在此基礎(chǔ)上，通過兩階段知識蒸餾或微調(diào)，借助更多的數(shù)據(jù)，將大模型強大的知識傳授給小模型，從而得到一個速度快且精度高的小模型。整體流程如下：

為了讓大模型半監(jiān)督學習工具在不同任務(wù)上有較好的泛化性，PaddleX團隊在圖像分類、目標檢測、OCR識別任務(wù)上分別進行了廣泛的針對性適配和調(diào)優(yōu)，每個工具的算法細節(jié)都不盡相同。不僅如此，為了大家使用方便，我們發(fā)布的三個不同視覺任務(wù)的大模型半監(jiān)督學習工具盡可能保持了使用方式上的統(tǒng)一。

結(jié)語

PaddleX是面向國內(nèi)外主流AI硬件的，全流程、高效率的飛槳精選AI模型的一站式AI開發(fā)套件。PaddleX的使命是助力AI技術(shù)快速落地，愿景是使人人成為AI Developer！

大模型半監(jiān)督學習工具已重磅上線PaddleX！快來體驗這款提效神器吧！加入PaddleX官方頻道，和大家一起討論開發(fā)經(jīng)驗，傳送門：

https://aistudio.baidu.com/community/channel/610

標簽：

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！

本文作者的其他文章

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！

提效神器！10%標注數(shù)據(jù)，比肩全量標注的模型效果！的評論 (共條)