智能輔助標(biāo)注——數(shù)據(jù)標(biāo)注領(lǐng)域新突破
數(shù)據(jù)標(biāo)注是對(duì)未處理的非結(jié)構(gòu)化初級(jí)數(shù)據(jù),包括語(yǔ)音、圖片、文本、視頻、點(diǎn)云等,通過(guò)人工智能訓(xùn)練師進(jìn)行加工處理,并轉(zhuǎn)換為機(jī)器可識(shí)別信息的過(guò)程。原始數(shù)據(jù)一般通過(guò)數(shù)據(jù)采集獲得,隨后的數(shù)據(jù)標(biāo)注相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行加工,然后輸送到人工智能算法和模型里完成調(diào)用。
數(shù)據(jù)標(biāo)注的發(fā)展
人工智能產(chǎn)業(yè)的發(fā)展,帶動(dòng)了數(shù)據(jù)標(biāo)注的蓬勃興起。隨著算法模型的不斷優(yōu)化和應(yīng)用場(chǎng)景需求的不斷提高,機(jī)器所需的數(shù)據(jù)質(zhì)量和精度也越來(lái)越高,同時(shí)也將成為未來(lái)競(jìng)爭(zhēng)的核心優(yōu)勢(shì)。
常見(jiàn)的報(bào)道中,數(shù)據(jù)標(biāo)注總被描述為“血汗工廠”,這項(xiàng)工作和從業(yè)者被描述得廉價(jià)低質(zhì),人被重復(fù)性機(jī)械式的勞動(dòng)異化。隨著產(chǎn)業(yè)的發(fā)展變化,人們也逐漸意識(shí)到人工智能數(shù)據(jù)及其采集標(biāo)注工作卻極其重要,是人工智能建設(shè)的基礎(chǔ)養(yǎng)料,是重中之重,隨之對(duì)數(shù)據(jù)標(biāo)注的這種刻板印象也逐漸被打破。
目前這種大量的人工標(biāo)注是有價(jià)值的,因?yàn)槔碚撋辖鉀Q問(wèn)題很難,但有了大量數(shù)據(jù),設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò),可以在特定場(chǎng)景特定應(yīng)用中用數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而在很多場(chǎng)景中可以讓AI快速落地占領(lǐng)市場(chǎng)、驅(qū)動(dòng)行業(yè)應(yīng)用、促進(jìn)行業(yè)升級(jí)和迭代。然而隨著人工智能產(chǎn)業(yè)的不斷深化,如何減少這種靠人力堆積的數(shù)據(jù)標(biāo)注必將是未來(lái)的趨勢(shì)。

數(shù)據(jù)標(biāo)注的核心需求
1. 數(shù)據(jù)質(zhì)量
監(jiān)督學(xué)習(xí)下的深度學(xué)習(xí)算法訓(xùn)練十分依賴于標(biāo)注數(shù)據(jù),數(shù)據(jù)集質(zhì)量的高低將直接決定算法模型的效果。然而,目前數(shù)據(jù)標(biāo)注行業(yè)存在很嚴(yán)重的數(shù)據(jù)質(zhì)量問(wèn)題。需求方希望數(shù)據(jù)服務(wù)公司可以提高首次交付項(xiàng)目的準(zhǔn)確率,并大幅減少返工情況。
2. 服務(wù)效率
目前數(shù)據(jù)標(biāo)注行業(yè)主流的項(xiàng)目運(yùn)營(yíng)方式是以“眾包”以及“轉(zhuǎn)包”為主,數(shù)據(jù)服務(wù)企業(yè)很難對(duì)標(biāo)注團(tuán)隊(duì)做到直接有效的管理,因此項(xiàng)目延期成為了一種常態(tài)。對(duì)于需求方來(lái)說(shuō),項(xiàng)目延期意味著在激烈的商業(yè)競(jìng)爭(zhēng)中喪失先發(fā)優(yōu)勢(shì),所以對(duì)于需求方來(lái)說(shuō),希望數(shù)據(jù)服務(wù)公司擁有高效的項(xiàng)目執(zhí)行系統(tǒng),提高工作效率,可以按時(shí)甚至提前完成項(xiàng)目。
3. 數(shù)據(jù)安全
數(shù)據(jù)標(biāo)注行業(yè)的特殊性意味著要經(jīng)常接觸到很多敏感的數(shù)據(jù),比如人臉數(shù)據(jù)、車牌數(shù)據(jù)等等,這些數(shù)據(jù)的存儲(chǔ)、傳輸?shù)葘?duì)于安全性的要求極高。因此,需求方希望基礎(chǔ)數(shù)據(jù)服務(wù)商有明確具體的安全管理流程,對(duì)數(shù)據(jù)傳輸、存儲(chǔ),以及結(jié)項(xiàng)后的數(shù)據(jù)銷毀等環(huán)節(jié)足夠重視。
4. 管理能力
“眾包”以及“轉(zhuǎn)包”模式下,管理能力較弱的公司很難在兼顧多個(gè)項(xiàng)目時(shí)做到精力集中、高質(zhì)量地服務(wù)客戶,這樣的后果就是項(xiàng)目延期、數(shù)據(jù)質(zhì)量差。因此,需求方希望數(shù)據(jù)服務(wù)企業(yè)能夠建立完善的內(nèi)部管理流程,優(yōu)化項(xiàng)目流程體驗(yàn),達(dá)到效率與質(zhì)量的雙提升。
5. 服務(wù)能力
數(shù)據(jù)標(biāo)注業(yè)務(wù)從本質(zhì)上來(lái)講也屬于一種服務(wù)業(yè)務(wù),從項(xiàng)目對(duì)接到最終項(xiàng)目的完結(jié),每一個(gè)環(huán)節(jié)都需要需求方與數(shù)據(jù)服務(wù)企業(yè)不斷地商討,從而做出最優(yōu)解。所以,需求方希望數(shù)據(jù)服務(wù)公司能夠在項(xiàng)目進(jìn)行中做到積極配合、快速響應(yīng),并可以對(duì)項(xiàng)目提出一定的優(yōu)化建議。
?
以上五點(diǎn)是需求方對(duì)數(shù)據(jù)標(biāo)注的核心訴求,所以,如何在AI商業(yè)化落地加快的大背景下,能夠在垂直場(chǎng)景中建立一套完整的數(shù)據(jù)整體解決方案,才是未來(lái)的市場(chǎng)競(jìng)爭(zhēng)中增添的重要優(yōu)勢(shì)砝碼。
從近兩年的市場(chǎng)數(shù)據(jù)來(lái)看,第三方數(shù)據(jù)標(biāo)注與審核公司開(kāi)始變多;原本十分分散的數(shù)據(jù)標(biāo)注行業(yè)走向?qū)I(yè)化的拐點(diǎn)正在發(fā)生。隨著人工智能在金融、醫(yī)療、安防等多個(gè)領(lǐng)域?qū)崿F(xiàn)技術(shù)落地,人工智能公司對(duì)數(shù)據(jù)的使用逐漸有“大”的趨勢(shì),整個(gè)行業(yè)正在逐漸向多模態(tài)、多場(chǎng)景、高精度的方向發(fā)展。
然而目前市面上的數(shù)據(jù)標(biāo)注企業(yè)大多都是多人并發(fā)協(xié)同標(biāo)注的方式進(jìn)行數(shù)據(jù)標(biāo)注,需要大量的人力進(jìn)行重復(fù)機(jī)械性的操作,這樣的準(zhǔn)確率很難保證;并且完成標(biāo)注后的數(shù)據(jù)集往往也很難與后續(xù)的模型訓(xùn)練銜接上,導(dǎo)致項(xiàng)目無(wú)法準(zhǔn)時(shí)交付,進(jìn)展緩慢。
跑碼地Coovally智能輔助標(biāo)注
因此,針對(duì)數(shù)據(jù)標(biāo)注領(lǐng)域的核心需求,跑碼地Coovally智能AI視覺(jué)平臺(tái)推出了智能輔助標(biāo)注功能。

Coovally樣本智能輔助標(biāo)注具有以下幾大亮點(diǎn):
支持對(duì)常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)對(duì)應(yīng)格式的樣本進(jìn)行標(biāo)注,如:圖像分類、目標(biāo)檢測(cè)、圖像分割等;
支持自動(dòng)根據(jù)已標(biāo)注樣本訓(xùn)練模型和輔助標(biāo)注;并且還提供了多種快捷標(biāo)注,如:粘貼標(biāo)注、預(yù)標(biāo)注等。用戶可以使用本人已部署的模型預(yù)標(biāo)樣本集圖片、可以批量粘貼標(biāo)注框到圖片、預(yù)標(biāo)部分標(biāo)簽物體也統(tǒng)統(tǒng)可以實(shí)現(xiàn)。
并且跑碼地Coovally是一個(gè)包含完整AI建模流程、AI項(xiàng)目管理及AI系統(tǒng)部署管理的機(jī)器視覺(jué)平臺(tái),能夠幫助用戶快速批量驗(yàn)證多種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能,極大的降低AI模型工程化應(yīng)用門檻;能夠提供“打包自身的A I能力”,給業(yè)務(wù)人員使用,可實(shí)現(xiàn)“授人以漁”。因此通過(guò)Coovally可以一步實(shí)現(xiàn)從數(shù)據(jù)標(biāo)注到模型訓(xùn)練再到模型部署的全流程,省去了找第三方數(shù)據(jù)標(biāo)注后銜接模型的過(guò)程,極大地提高了建模效率,為項(xiàng)目準(zhǔn)時(shí)交付提供了保障。
目前跑碼地Coovally已廣泛應(yīng)用于制造業(yè)質(zhì)檢、地質(zhì)災(zāi)害監(jiān)測(cè)、電力行業(yè)設(shè)備監(jiān)控、醫(yī)學(xué)專病診斷、智慧交通、智慧園區(qū)等多樣場(chǎng)景。“得數(shù)據(jù)者,得人工智能”,有了智能輔助標(biāo)注功能的加持,Coovally將進(jìn)一步拓寬應(yīng)用場(chǎng)景,提高模型精度,助力機(jī)器視覺(jué)行業(yè)發(fā)展。