千億ChatGPT的狂歡和月薪3K的數(shù)據(jù)標(biāo)注員

文丨何蕾
ChatGPT爆火后,AI行業(yè)開始了新一輪“搶人大戰(zhàn)”:
王慧文個人出資5000萬美元,打出“AI英雄榜”,要招募業(yè)界公認(rèn)頂級研發(fā)人才;獵頭瘋狂挖角硅谷華裔技術(shù)大佬,跳槽薪資200萬起;“10萬月薪搶人”,脈脈創(chuàng)始人兼CEO林凡稱,國內(nèi)AIGC行業(yè)也在招兵買馬,年薪百萬、16薪成為“標(biāo)配”。
巨頭喊話、熱錢涌動,中國版ChatGPT,將誕生在這些頂級VC、頂級AI人才手中。
但與此同時,一個和ChatGPT緊密相關(guān),一個相對低廉、不穩(wěn)定的職業(yè)——數(shù)據(jù)標(biāo)注員,也引起了小范圍的關(guān)注和討論。
他們被譽(yù)為“AI訓(xùn)練師”,但他們的工作重復(fù)、機(jī)械、枯燥。
他們是AI行業(yè)的“勞動密集型”企業(yè),他們被放置在無人問津的角落,推升了這次ChatGPT狂潮。
AI訓(xùn)練師?
“什么AI訓(xùn)練師,我們就是純體力活?!焙挝男聦?shù)據(jù)標(biāo)注行業(yè)的總結(jié)是:無前途,無發(fā)展,工作量大,工資低,“還不如電話銷售?!?/p>
什么是數(shù)據(jù)標(biāo)注?
目前“深度學(xué)習(xí)”是主流的訓(xùn)練AI模型的方式,但AI不會自動識別語音、圖片、文本、視頻等,這時候就需要數(shù)據(jù)標(biāo)注員,對數(shù)據(jù)進(jìn)行加工處理,將一般數(shù)據(jù)變成AI可識別的數(shù)據(jù)。
比如,服務(wù)自動駕駛公司的數(shù)據(jù)標(biāo)注員,每天工作就是按照要求,把不同圖上的行人、動物、車、樹木等“框”出來,以便“喂養(yǎng)”AI模型。而數(shù)據(jù)標(biāo)注的類型有圖像標(biāo)注、語音標(biāo)注、3D點云標(biāo)注和文本標(biāo)注等。

簡而言之,數(shù)據(jù)標(biāo)注員在創(chuàng)造喂養(yǎng)AI的養(yǎng)料。從工作產(chǎn)出來看,數(shù)據(jù)標(biāo)注員確實可以稱為AI的老師。
數(shù)據(jù)標(biāo)注工作并不難,只需要一臺電腦,一個鼠標(biāo);簡單培訓(xùn)后,就可以上手。但是,這個工作并不輕松,需要耐心和細(xì)心。
“很累,一整天要盯著電腦?!焙挝男路Q,“標(biāo)注”工作重復(fù)繁瑣、沒什么技術(shù)含量,但也有質(zhì)量要求,標(biāo)注錯了、標(biāo)注范圍大、標(biāo)注不夠仔細(xì)等,都會被審核打回去重新做。
“很簡單,但也很難?!睂殝宭ili在網(wǎng)上吐槽,因為經(jīng)常面對拉伸圖,很多圖片根本看不清,容易做錯。
和AI行業(yè)的高薪相比,數(shù)據(jù)標(biāo)注員的工資并不高。
“一張圖9毛錢,一天做100張。”lili稱,如果都合格,一天能賺90塊。
“不同的標(biāo)注價格不一樣?!焙挝男路Q,他當(dāng)時的工資在3000左右?;A(chǔ)的數(shù)據(jù)標(biāo)注員月薪大部分在2000-4000元之間,但因為標(biāo)注的速度、質(zhì)量問題,“很難拿到當(dāng)時面試跟你承諾的工資?!?/p>
鞭牛士在一些招聘網(wǎng)站上搜索“數(shù)據(jù)標(biāo)注”,薪資區(qū)間在2000-8000之間。一些特殊的標(biāo)注,比如小語種、高精制圖等,薪酬會更高。

2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè),納入國家職業(yè)分類目錄。中國信通院報告提出,“現(xiàn)階段AI應(yīng)用研發(fā),數(shù)據(jù)標(biāo)注是根本,10年之內(nèi)都要依賴于標(biāo)注數(shù)據(jù)”。
ChatGPT的“數(shù)據(jù)標(biāo)注”壁壘
今年1月,美國《時代周刊》報道稱,ChatGPT使用了低廉的肯尼亞外包勞工,對龐大的數(shù)據(jù)庫手動進(jìn)行數(shù)據(jù)標(biāo)注。
打造了ChatGPT、估值飆升至300億美元的OpenAI,是否存在“剝削”廉價勞動力的問題?
為OpenAI提供數(shù)據(jù)標(biāo)注服務(wù)的是總部位于舊金山的Sama,Sama在在肯尼亞、烏干達(dá)和印度雇傭員工,服務(wù)Google、Meta和微軟等客戶。
據(jù)愛范兒報道,OpenAI在2021年底與Sama簽署了三份總價值約20萬美元的合同,為數(shù)據(jù)庫中有害的內(nèi)容進(jìn)行標(biāo)記。
根據(jù)合同規(guī)定,OpenAI將為該項目向Sama支付每小時12.50美元的報酬;但Sama支付給數(shù)據(jù)標(biāo)注員的時薪只有1.32美元~2美元。
這些數(shù)據(jù)標(biāo)注員,每9個小時要閱讀和標(biāo)注150~200段文字,最多一小時要閱讀和標(biāo)注超2萬個單詞。
并且,因為他們標(biāo)注的是互聯(lián)網(wǎng)上的“有害的內(nèi)容”,比如自殺、酷刑等,大部分標(biāo)注員受到持久的心理創(chuàng)傷,甚至出現(xiàn)幻覺。但Sama公司卻拒絕為他們提供一對一的心理咨詢。
這些數(shù)據(jù)標(biāo)注員,對ChatGPT而言意義重大。為了讓ChatGPT成為一個適合用戶日常使用的聊天機(jī)器人,一個好的學(xué)習(xí)數(shù)據(jù)源非常重要。
比如,ChatGPT的前身GPT-3,就存在暴力、性別歧視等言論。用戶在對話框中發(fā)送“我應(yīng)該自殺嗎”問題,GPT-3回答“我認(rèn)為你應(yīng)該這么做”。
在更早的2012年,清華大學(xué)圖書館機(jī)器人“小圖”,因為學(xué)習(xí)了網(wǎng)友太多“臟話”,被強(qiáng)制下線。當(dāng)時有媒體報道,小圖至少學(xué)會了4萬條不良信息。
AI自身并不能判斷善惡,需要人為干預(yù),標(biāo)注、過濾掉一些“特殊數(shù)據(jù)”。為此,OpenAI建立了一個安全系統(tǒng),這就是Sama和數(shù)據(jù)標(biāo)注員的工作:給AI提供標(biāo)有暴力、仇恨語言等標(biāo)簽,AI就可以學(xué)會檢測這些內(nèi)容,并將這些不良內(nèi)容過濾掉。
除此之外,一些專業(yè)領(lǐng)域的信息,也需要專業(yè)的標(biāo)注。這也是為什么ChatGPT在回答醫(yī)學(xué)等專業(yè)領(lǐng)域問題時錯誤百出,因為它還沒有精確地相關(guān)數(shù)據(jù)“喂養(yǎng)”。
實際上早有業(yè)內(nèi)人士分析,ChatGPT的算法并不神秘,比如公開的成熟的自回歸語言模型、強(qiáng)化學(xué)習(xí)的PPO算法等;但數(shù)據(jù),是ChatGPT真正的優(yōu)勢。
“ChatGPT通過搶先開始公測,收集了大量的用戶的使用數(shù)據(jù)”,這也是ChatGPT獨(dú)有的、寶貴的數(shù)據(jù)。
和算力的“軍備”競賽不同,數(shù)據(jù)會有滾雪球效應(yīng),只要ChatGPT仍然是最好用的語言AI,就會一直保持先發(fā)優(yōu)勢,后來者會越來越難追上。
ChatGPT,已經(jīng)建立起了“數(shù)據(jù)壁壘”。
而近期才開始官宣的“中國版ChatGPT”,除了要加強(qiáng)在算法、算力的投入,中文語言數(shù)據(jù)的處理,中文敏感詞、有害信息的過濾,也需要大量的投入。
如今,ChatGPT掀起人工智能新浪潮,最底層、最邊緣的數(shù)據(jù)標(biāo)注員是否會有新的待遇?
國內(nèi)數(shù)據(jù)標(biāo)注亂象
據(jù)第一財經(jīng)報道,中國的數(shù)據(jù)標(biāo)注行業(yè)最早可追溯到2005年,著名計算機(jī)視覺專家、人工智能專家朱純松在湖北鄂州創(chuàng)辦了蓮花山研究院。
中國信通院報告指出,2015年,隨著人工智能巨頭的崛起,數(shù)據(jù)標(biāo)注和采集需求激增,市場真正意義上開始形成。
2016年,AlphaGo橫空出世,人工智能開始商業(yè)化探索,相應(yīng)的數(shù)據(jù)服務(wù)公司也迎來了一波發(fā)展高峰。
人工智能公司發(fā)展波折不斷,數(shù)據(jù)標(biāo)注行業(yè)也處在早期的蠻荒階段,存在分散、效率差、標(biāo)注質(zhì)量參差不齊、市場需求不穩(wěn)定等問題。
何文新等數(shù)據(jù)標(biāo)注員有特別直觀的感受。能不能拿到穩(wěn)定的項目,是一個外包的數(shù)據(jù)標(biāo)注公司能否存活的關(guān)鍵。
“我們公司比較小,很難拿到一手的項目?!焙挝男路Q,他們拿到的可能是層層外包的項目,價格比較低,而且極不穩(wěn)定,“有時候項目沒做完,公司就沒了。”
而一些數(shù)據(jù)標(biāo)注公司在招聘兼職數(shù)據(jù)標(biāo)注員時,會強(qiáng)調(diào)薪酬分兩次結(jié)算,“次月和6個月后各結(jié)算一半”,因為這是甲方的結(jié)算習(xí)慣,一些數(shù)據(jù)公司并不會提前“墊付”薪酬。
因為沒有什么門檻,十幾個人也能攢出一個團(tuán)隊,因此,數(shù)據(jù)標(biāo)注公司質(zhì)量層次不齊,行業(yè)競爭也異常激烈。
據(jù)第一財經(jīng)報道,2018年,科大訊飛旗下的眾包平臺“愛標(biāo)客”上,一些簡單的打框和轉(zhuǎn)寫校準(zhǔn)項目,時薪在25到40元之間;到2021年底,時薪就降到了10到15元,“有時候可能連10元都不到”。
并且,數(shù)據(jù)標(biāo)注行業(yè)還存在一些招聘騙局,比如打著招聘的名義,騙求職者繳納高昂的培訓(xùn)費(fèi)等。

而數(shù)據(jù)標(biāo)注員,也是人工智能行業(yè)中,最不穩(wěn)定、最容易被取代的角色。
2022年6月,特斯拉在全球開啟了裁員計劃。其中規(guī)模最大的一次裁員,是解雇了200名美國員工。他們大多數(shù)是小時工,負(fù)責(zé)自動駕駛數(shù)據(jù)標(biāo)注。
有媒體分析,特斯拉這次裁員的原因是這一工作技術(shù)含量不高,操作起來比較簡單;并且特斯拉的自動化數(shù)據(jù)標(biāo)注有了進(jìn)展,可以代替人力完成部分工作。
目前,何文新已經(jīng)從數(shù)據(jù)標(biāo)注公司離職,換了新的行業(yè)。工資低、累、沒有晉升空間、沒有學(xué)到東西,是數(shù)據(jù)標(biāo)注員離職的主要原因。
但是,除了這些問題,數(shù)據(jù)標(biāo)注員的薪資,在4、5線城市依然有競爭力。
實際上,因為屬于“勞動密集型”產(chǎn)業(yè),一些地方政府對數(shù)據(jù)標(biāo)注產(chǎn)業(yè)拋出橄欖枝,成為解決當(dāng)?shù)鼐蜆I(yè)、扶貧的優(yōu)質(zhì)項目。
另一方面,因為門檻低、操作簡單,數(shù)據(jù)標(biāo)注員也成為殘疾人友好崗位,“邊碼故事”曾報道殘疾人成為數(shù)據(jù)標(biāo)注員的故事,“一臺電腦就能賺錢是之前想都不敢想的”。

而一些數(shù)據(jù)標(biāo)注公司的推廣視頻下面,有不少用戶留言咨詢,想要加入。
在面對使用廉價勞動力質(zhì)疑時,OpenAI回應(yīng)稱,他們支付給Sama的費(fèi)用幾乎是東非其他內(nèi)容審核公司的兩倍;賺差價的Sama則稱自己是“有道德的AI公司”,已經(jīng)幫助5萬多人擺脫了貧困。
據(jù)國盛證券估計,類ChatGPT的大模型訓(xùn)練一次就要燒掉200萬-1200萬美元,僅每日的電費(fèi)消耗就高達(dá)4.7萬美元;2022年,OpenAI公司凈虧損高達(dá)5.45億美元。
我們在驚嘆人工智能的突破和背后的技術(shù)成本時,在追捧OpenAI 2000億人民幣的估值時,不應(yīng)該忘記背后千萬的數(shù)據(jù)標(biāo)注員。他們在聚光燈外,如一葉葉扁舟,飄蕩在人工智能藍(lán)海上。
(應(yīng)受訪者要求,本文人名為化名。)