云聚數(shù)據(jù)的得與失,影射AI數(shù)據(jù)服務行業(yè)痛點

?

編輯 | 謝治賢
出品 | 于見(mpyujian)
作為一種底層生產(chǎn)力工具,人工智能正在向各個行業(yè)、方向商用化,甚至掀起了新一輪的技術革命浪潮。
在產(chǎn)品具體表現(xiàn)上,伴隨著智能音箱、智能駕駛、無人機等人工智能的落地,AI無形中改變了各行各業(yè)的生態(tài),加快了企業(yè)的數(shù)字化進程,同時也改變了產(chǎn)業(yè)鏈結構,極大地提高了信息利用率。
但這一切的發(fā)展都離不開數(shù)據(jù)和算法的支持。數(shù)據(jù)作為人工智能的三大要素之一,已經(jīng)成為人工智能產(chǎn)業(yè)的重要支撐者。如何構建以數(shù)據(jù)為中心的服務和壁壘已成為人工智能企業(yè)面臨的問題。
云聚數(shù)據(jù)作為專門從事人工智能數(shù)據(jù)采集和標注的服務公司,前不久通過了中國人工智能學會(CAAI)遴選成為學會會員單位。但在得到學會會員名額地位后,云聚數(shù)據(jù)也面臨著數(shù)據(jù)采集定制化困難、精密度低,質(zhì)量改進緩慢等難點,這也折射出當前人工智能數(shù)據(jù)服務的諸多痛點。
科技顛覆加速,探索過程艱辛
作為人工智能數(shù)據(jù)服務品牌,云聚數(shù)據(jù)能夠為智能駕駛、智能家居、智能安防、智能城市、智能金融等領域提供定制的數(shù)據(jù)采集和標注服務,支持文本、語音、圖像、視頻等各類數(shù)據(jù)的處理。截至目前,云聚數(shù)據(jù)已在華東、華北、華南等地建立了數(shù)據(jù)交付中心和數(shù)據(jù)采集基地,并成功為數(shù)百家企業(yè)提供了人工智能數(shù)據(jù)服務。
從大背景下來看,市場上對基礎數(shù)據(jù)服務有三種不同的需求。一是研發(fā)需求,指前期采用標準數(shù)據(jù)集產(chǎn)品培訓,中后期采用專業(yè)數(shù)據(jù)定制服務;二是培訓需求,一般打磨算法的準確性和縱深程度,是市場的主要需求。一般面向定制化服務,這對數(shù)據(jù)的準確性要求很高;第三是落地業(yè)務需求,這一般面向更成熟的核心場景,對服務感知有更高的要求。
在云聚數(shù)據(jù)看來,人工智能最終是為了商用,為了被使用,所以對人工智能的數(shù)據(jù)質(zhì)量要求會越來越高、越來越準確,在場景中會出現(xiàn)更多的定制數(shù)據(jù)需求,除了提高數(shù)據(jù)安全性和隱私保護外,要保證數(shù)據(jù)的唯一性、場景性,才能真正幫助企業(yè)建立數(shù)據(jù)核心屏障。
由于云測量的企業(yè)服務基因,云聚數(shù)據(jù)結合項目管理流程能力,也保證了數(shù)據(jù)的準確性和機密性。但在某種程度上來說,云聚數(shù)據(jù)還需提供更準確、更有價值的數(shù)據(jù),只有重頭探索“人工智能數(shù)據(jù)服務”,不在過去的成就里故步自封,才能推動人工智能的進一步落地,幫助人工智能企業(yè)獲取更多高質(zhì)量的特定場景數(shù)據(jù),構建自己的核心數(shù)據(jù)屏障。
云聚數(shù)據(jù)曾在全國多個地方自建數(shù)據(jù)場景實驗室和數(shù)據(jù)標簽基地,配備各種采集軟硬件設備,建立了專業(yè)的定制采集和標注團隊。
事實上,場景實驗室是人工智能數(shù)據(jù)服務的重要組成部分,具有高度定制的數(shù)據(jù)布局,可以使云聚數(shù)據(jù)的交付能力與客戶的需求平行。在自建的數(shù)據(jù)標簽庫中,可以將云數(shù)據(jù)的技術和項目管理能力迅速轉(zhuǎn)化為特定數(shù)據(jù)標簽業(yè)務生產(chǎn)力,完成數(shù)據(jù)質(zhì)量的飛躍。
但是,云聚數(shù)據(jù)面臨著一個不可忽視的難題——細分領域深耕難,因為這需要更深層次的知識積累、更精確和更安全的數(shù)據(jù)。有了這三種能力,云數(shù)據(jù)可以準確地抓住數(shù)據(jù)服務軌道變化的機會。
在AI行業(yè),科技顛覆傳統(tǒng)的速度總是比人們想象的要快。作為人工智能數(shù)據(jù)服務行業(yè)的一份子,數(shù)據(jù)采集之旅是星海,是撬動萬億級市場的艱難任務。
定制化、精準化困難
云聚數(shù)據(jù)總經(jīng)理賈宇航說,對于需要使用人工智能數(shù)據(jù)的企業(yè)來說,“成功關鍵就是數(shù)據(jù),失敗的原因也不外乎數(shù)據(jù)”。這是一個既定的事實。這里的數(shù)據(jù)不僅是指數(shù)量,而且也指向精確度。人工智能數(shù)據(jù)用戶實現(xiàn)精細數(shù)據(jù)采集和多維數(shù)據(jù)標注是非常重要的。
隨著交互式人工智能的普及,深入研究和開發(fā)人工智能已成為企業(yè)發(fā)展戰(zhàn)略的重要組成部分。通常,提高算法的精度是人工智能進化的重要途徑,因此對數(shù)據(jù)的精度也提出了更高的要求。
提高數(shù)據(jù)的準確性方面,云聚數(shù)據(jù)還有待進一步提升。云聚數(shù)據(jù)必須根據(jù)客戶的定制需求設置采集場景,為客戶提供多場景、多形式的高精度數(shù)據(jù),以滿足不同企業(yè)對不同數(shù)據(jù)的需求。例如,在疲勞駕駛監(jiān)測系統(tǒng)的研發(fā)初期,很難收集到駕駛員的危險行為數(shù)據(jù)。為解決這一問題,可以通過建立相應的場景實驗室,利用專業(yè)人士在駕駛艙內(nèi)模擬駕駛員的疲勞駕駛相關行為,如打瞌睡、玩手機等,模擬駕駛員的疲勞駕駛等相關行為。利用這組數(shù)據(jù)對人工智能進行訓練,以建立減少交通事故的預警系統(tǒng)。
然而,在數(shù)據(jù)服務過程中,最重要的是數(shù)據(jù)采集后的高精度數(shù)據(jù)標注。如果沒有準確的數(shù)據(jù)標簽,收集的數(shù)據(jù)將處于無意義狀態(tài),不會被激活,其價值也不會被反映出來。在這一點上,我們不得不提到“數(shù)據(jù)注釋”這個職業(yè)。
過去,“數(shù)據(jù)標簽”常被貼上“勞動密集型”和“非技術性內(nèi)容”的標簽,但在賈宇航看來,情況并非如此。他認為,“數(shù)據(jù)標簽”現(xiàn)在已經(jīng)成為一個“技能密集型”行業(yè)。隨著人工智能技術的飛速發(fā)展,數(shù)據(jù)標注行業(yè)正經(jīng)歷著快速的變革?!叭斯ぶ悄芙處煛笔撬麄兊男旅?。以甄別標簽為己任,為人工智能的真正智能而努力。通過不斷掌握豐富的行業(yè)知識、專業(yè)技能和專業(yè)工具的使用,做好每一項復雜的數(shù)據(jù)標注工作,使數(shù)據(jù)標注的準確率從95%提高到99%甚至更高,確保人工智能更加智能化。
例如,在對車輛信息進行標注時,傳統(tǒng)的數(shù)據(jù)標注只能保證人工智能能夠準確識別95%的車輛類型、車身顏色等信息。有些企業(yè)需要研究道路設置問題,所以只需要道路基礎設施的數(shù)據(jù)。而有些企業(yè)則需要所有的數(shù)據(jù)來針對車輛上路情況做汽車行業(yè)性研究。數(shù)據(jù)標注決定了數(shù)據(jù)的準確性,特別是容易被人忽略的那5%,這就需要專業(yè)的數(shù)據(jù)注釋員來完成。實現(xiàn)更高質(zhì)量的數(shù)據(jù)標注,確保每一個數(shù)據(jù)都能幫助人工智能產(chǎn)品快速落地,這也是云聚數(shù)據(jù)亟待解決的焦點。
人工智能的發(fā)展離不開數(shù)據(jù)的支持。沒有數(shù)據(jù)作為“燃料”,人工智能就“難以前進”。過去人工智能數(shù)據(jù)服務是一種并行模型,現(xiàn)在逐漸形成金字塔模型。作為金字塔之上的數(shù)據(jù)服務提供商,云聚數(shù)據(jù)要有自己的發(fā)展戰(zhàn)略。賈宇航認為,人工智能數(shù)據(jù)服務是一個資金、人員、軟硬件設施投入相對較高的行業(yè),但也是人工智能產(chǎn)品落地的重要因素。
云聚數(shù)據(jù)只有專注于高還原、高精度、高質(zhì)量的數(shù)據(jù),致力于幫助企業(yè)探索開發(fā)邊界,才能通過提供健康的數(shù)據(jù),真正幫助人工智能產(chǎn)業(yè)平穩(wěn)快速發(fā)展。
AI數(shù)據(jù)服務諸多痛點亟待解決
隨著科學技術的不斷更新和迭代,企業(yè)變革的方向已經(jīng)從信息化轉(zhuǎn)向智能化。在這個過程中,如何獲取數(shù)據(jù)成為最重要的痛點。
事實上,這一問題在產(chǎn)業(yè)轉(zhuǎn)型中早已是普遍現(xiàn)象?;氐街悄芑瘯r代初期,企業(yè)正競相加入信息化變革的行列。此時,互聯(lián)網(wǎng)已經(jīng)積累了大量的數(shù)據(jù)信息,可以用于企業(yè)的人工智能培訓。但后來人們意識到,互聯(lián)網(wǎng)上的數(shù)據(jù)過于簡單,無法滿足人工智能的發(fā)展速度,于是企業(yè)開始主動獲取數(shù)據(jù)。
2005年以來,以亞馬遜Mturk為代表的眾包模式這一新的數(shù)據(jù)采集大行其道。這種眾包模式當時被硅谷的許多公司采用。它最初用于訓練人工智能算法、檢測虛假新聞、刪除社交媒體上的暴力內(nèi)容等,也用于定量研究、市場研究等領域。由于其門檻低、效率高、使用方便,一度受到廣大人工智能從業(yè)者和研究人員的喜愛,也在中國掀起了一股模仿浪潮。
然而,隨著人們對人工智能的依賴程度越來越高,對人工智能的需求也越來越大,數(shù)據(jù)的質(zhì)量和準確性自然也越來越高,這給眾包數(shù)據(jù)服務商以及人工智能數(shù)據(jù)服務行業(yè)帶來了巨大的挑戰(zhàn)和機遇。
云測數(shù)據(jù)就在此遇到了較大的困難。不得不憑借多年來在互聯(lián)網(wǎng)行業(yè)積累的經(jīng)驗,不斷磨礪技術能力,來重新塑造品牌形象,以期在云數(shù)據(jù)采集領域獲得成長。
數(shù)據(jù)服務未來在何方
人學習的過程是觸類旁通的,但人工智能的學習是靠海量數(shù)據(jù)堆積和覆蓋的,這就意味著人工智能的學習和進步需要全面準確的數(shù)據(jù)。2019年被稱為5G元年,5G技術高速、低延遲、低功耗,將給數(shù)據(jù)業(yè)務帶來新的變化。
5G將數(shù)量和速度跟上了,數(shù)據(jù)的“質(zhì)”也得到日益提升,助推數(shù)據(jù)服務行業(yè)實現(xiàn)巨大飛躍,從而進一步提升了人工智能的智能化水平,催生出更多的AI產(chǎn)品。讓5G技術推動整個AI數(shù)據(jù)服務行業(yè)發(fā)展,使整個行業(yè)更加繁榮。
不過,也存在一個不可忽視的質(zhì)疑,隨著科技的逐步進步,對人工智能數(shù)據(jù)的需求是否會逐漸下降?答案是否定的,因為當人們享受到人工智能帶來的紅利時,他們的期望會增加,數(shù)據(jù)需求也不會有上限。
比如,智能手機剛問世時給人們帶來了一絲新意,但人們沒想到的是,幾年后,智能手機、人工智能的應用場景會給我們帶來如此巨大的便利,人工智能的力量從當前視野域值是看不出來的。但隨著其越來越強大的過程中,其數(shù)據(jù)缺口也將越來越大。
目前,云聚數(shù)據(jù)在人工智能數(shù)據(jù)服務中遇到的各種難題,其實是行業(yè)發(fā)展的難題,透過這一小的綜合體也可以影射整個數(shù)據(jù)服務行業(yè)的發(fā)展。
如何實現(xiàn)人工智能數(shù)據(jù)服務質(zhì)量的飛躍,云聚數(shù)據(jù)還需克服過去數(shù)據(jù)服務行業(yè)的困難,使數(shù)據(jù)服務場景化、細化、質(zhì)量化。通過提供定制化的數(shù)據(jù)采集、高精度的數(shù)據(jù)標注等服務模式,逐一解決遇到的種種困難。