我的擇業(yè)思考:在AI最火的時候來到工業(yè)界!
作者:藍捷,上海交通大學,智子躍遷CTO
內(nèi)容來源于Datawhale在上海交通大學的線下分享
大家好,我是藍捷,2018年碩士畢業(yè)到現(xiàn)在,我一直在工業(yè)線創(chuàng)業(yè),主要做的方向是智能倉儲機器人方向。我們公司叫智子躍遷,我現(xiàn)在是技術(shù)負責人。其實很多人會問我,為什么在17、18年AI特別火、資本市場看好、相關(guān)工作特別多的時候,會選擇了在工業(yè)界創(chuàng)業(yè)做實體機器人?這個看起來很傳統(tǒng)、又很難走的方向。
我覺得還是要想一下,你自己能做什么,想做什么,以及做什么你能賺錢。把這三個結(jié)合點找到,就會找到你的方向。

對我自己來說,我能做什么?我從 2011 年學到2018 年學了很久的機械機器人,不希望把這些東西全部丟掉,然后轉(zhuǎn)做一個寫代碼的人。我也并不覺得我跟計算機本專業(yè)畢業(yè)的這些人比,在競爭優(yōu)勢上我會比他們強多少,因為畢竟時間短。第二個我想做的,其實更多的是希望能夠為社會做出一些看得見的效率提升,同時我希望在做這個事情中自己能夠成長。最后一個就是養(yǎng)活自己的,需要有個比較可觀的收入,最好能有一個財富自由的機會。結(jié)合這三點話,我把自己的工作定位在了工業(yè)界+機器人。
我當時認為除了我們自己想做的事情以外,一定要考慮外部市場,這個我覺得對各位的擇業(yè)也是一樣。
我畢業(yè)時外部市場是怎么樣的?首先肯定是 AI 特別火。我畢業(yè)的時候,最火的這批企業(yè),比如 AI 四小龍,比如說大的互聯(lián)網(wǎng)企業(yè)BAT,然后還有各種的手機公司華為、 oppo vivo、小米,以及無數(shù)的自動駕駛公司。然后還有很多小型的家電創(chuàng)業(yè)方向公司都在做AI,都在招算法,開的工資也特別高,非常誘人。
因為我自己比較關(guān)注機器人領(lǐng)域,我就在想機器人領(lǐng)域能不能有發(fā)展?首先考慮的還不能是這個領(lǐng)域本體的方向,而是要看誰在消費機器人領(lǐng)域。機器人最早是在汽車生產(chǎn)線上發(fā)展起來的,生產(chǎn)線上可能能看到非常多的這種工業(yè)機械臂?,F(xiàn)在這種機械臂其實應(yīng)用的范圍主要就是生產(chǎn)現(xiàn)場,物流現(xiàn)場除了汽車生產(chǎn)線以外,還有很多的手機生產(chǎn)線,也上了機械臂。在 17 到 18 年電商發(fā)展很快,物流發(fā)展也特別快。
當時的消費需求是很旺盛的,但是我去現(xiàn)場生產(chǎn)現(xiàn)場和物流現(xiàn)場看了之后,發(fā)現(xiàn)他們的場景比較落后,主要就是靠人。有大量的人在做這么重復無聊的工作,也沒什么能力提高,就是出賣勞動力作為一個螺絲釘。我其實去跟那些企業(yè)聊過,問這么多人,人力成本是不是每年也挺高的。他們說對,不止成本高,而且每年越來越招不到人,因為年輕人越來越不愿意去干這個事,所以他們換人的意識在提高,這個市場行情向好。
我們再回過頭,看一下機器人本身行業(yè)的發(fā)展。
機械臂就不說了,這本來就已經(jīng)挺成熟,已經(jīng)大規(guī)模應(yīng)用了。那時候輪式機器人用的也比較多,大家現(xiàn)在看得比較多的掃地機器人,包括室外的清掃機器人,甚至是無人駕駛的汽車,廣義上其實也是一個輪式機器人。還有一些四足和雙足的機器人,如果大家有關(guān)注機器人的話,可能會看到一個叫Boston Dynamics的公司,做了一個機械狗叫spot,還有一個人型機器人叫阿特拉斯。有時候我們看到網(wǎng)上視頻說機器人在翻跟頭、野外跑酷,一般就是他們公司做的。今年小米發(fā)布會上發(fā)布了一款新的機器狗叫鐵蛋,其實就有參考Boston Dynamics公司機械狗spot。這個機械狗機器人沒有量產(chǎn),也沒有商業(yè)化,因為它太貴了,一個大概要賣 7 萬到 8 萬美金。但是它確實吸引了特別多的資本,讓很多資本看到這個新興的行業(yè)。
這塊是不是就完美的符合了我自己的想象?然后當時我就去找,發(fā)現(xiàn)其實 工業(yè)界+機器人+創(chuàng)業(yè) 這個方向本來就有,大多是做一些比較傳統(tǒng)的方案機器人。那么加了 AI 之后, AI 給機器人帶來什么?我覺得 AI 給機器人主要帶來了兩個方面的提高,第一個就是復雜規(guī)劃,就是它能夠讓機器人本身的效率變得更高。第二個話是它的決策和感知功能可以讓機器人更柔性,易用性更強。
舉個例子,針對于固定尺寸的箱子,一般機器人就可以完成簡單的這種搬運和挪動。但是對于復雜場景比如說物流場景,東西特別多、種類特別雜,大小也完全不一樣。這個時候能不能有一個方法讓機器人有更強的泛化能力去處理問題呢?那么 AI 是不是能在里面起作用?事實上也有很多企業(yè)在做這樣的事情。當時我就去了這樣一個實習。

這個實習內(nèi)容是機械里的一個3D視覺的項目,在這個項目里要做的工作就是上面右側(cè)的兩個圖。當然這個圖不是我當時的圖,那個其實就是在一個料箱里面有混雜的這些東西,然后它的種類會更多。怎么樣把這些東西一件一件的識別出來,再一件件的揀出來。這個用傳統(tǒng)的視覺方法是很難做的,AI給它帶來了一些可能性,我們當時做也覺得信心特別足。然而做完之后,發(fā)現(xiàn)實驗室做出來的結(jié)果和工程落地的結(jié)果差別很大。

首先我在實驗室做Demo驗證時,我們的訓練集、測試集,樣本都比較小,實驗室的環(huán)境也比較單一,沒什么噪聲。我們當時大概調(diào)試了一個月不到,覺得 OK 上線了,實驗室的穩(wěn)定率也挺好的。
后面的現(xiàn)場實際工程發(fā)現(xiàn),有大量的Corner Case ,這些都是之前的訓練模型里面體現(xiàn)不出來的。這些Corner Case還包括了大量的噪聲,現(xiàn)場環(huán)境亂七八糟的,有光照、有污染、有震動,這些東西都會對實際操作產(chǎn)生比較大的影響。還有,我發(fā)現(xiàn)當我想要去處理這些問題,用基于規(guī)則的一些算法來規(guī)避掉Corner Case時,會極大地拉長現(xiàn)場部署時間,成本也很高。因為在現(xiàn)場部署時,花的人力成本是一個高級算法工程師的成本。
終于吭哧吭哧把這個項目做完了,可以驗收了,現(xiàn)場的負責人跟我說,你已經(jīng)做好了這個東西,能不能再幫我改改代碼直接上線另外一個東西?我要你兩三天就做出來,因為你之前跟我說你的東西泛化能力很強,做完這個馬上就能做下一個。我當時愣住了,就覺得這個場景一變,代碼的復用率并沒有那么高,泛化能力并沒有那么強,最終造成的結(jié)果就是客戶的復購意愿低下。比如說這東西看起來好像可以用,你在真的到實體場景去跟客戶面談的時候,他其實偶爾行不通的。
從那個時候我就開始想,數(shù)據(jù)驅(qū)動的 AI 和以前傳統(tǒng)的規(guī)則驅(qū)動的算法比,到底哪個在工業(yè)界更有優(yōu)勢?說實話,我現(xiàn)在這個問題也還在思考。但其實工業(yè)界的客戶給了我的一個解答,就是低成本解決實際問題才是導向。不管里面用的是啥,把問題解決了,我就滿意了。

所以當時我就做了一個很深刻的檢討,機器人+工業(yè)界+創(chuàng)業(yè)+ AI ?的這條路是不是行得通?AI 是不是真的有市場。
后來我看到了一家做 機器人+工業(yè)界+創(chuàng)業(yè) 的公司,做一種實現(xiàn)拆零分揀環(huán)節(jié)自動化的機器人,就叫產(chǎn)品A吧。在這之前,拆零分揀播種有兩種途徑,一種是人工,還有一種自動播種的機械臂工作站。產(chǎn)品A和機械臂要達到相同的效率,成本大概是一樣的,各自的特點如圖。

我當時問了自己一個問題,說如果我是客戶,我會選 A 產(chǎn)品——我們公司做的播種墻,還是選機械臂?我當時覺得自己會選我們的播種墻。所以我當時就決定去我們公司創(chuàng)業(yè),而且把 AI 暫時從我們這邊去掉。事實證明我的選擇是對的,因為在 19 年把我們公司的產(chǎn)品第一次推向市場,在展會上亮相的時候,我還能看得到有很多公司將機械臂工作站作為方案在展會上亮相,但到了今年第三年了,這些公司都不再做這個方案了,因為他們知道打不過我們,這個方案在商業(yè)上不可行。
后面我就在思考:為什么學術(shù)前沿的技術(shù)會不等于商業(yè)?
我們要做什么事情,才能夠把一個好的技術(shù)算法在工業(yè)界推廣?我覺得其實是學術(shù)界和工業(yè)界,考評的指標不太一樣。我們簡單來看一下這張圖。

工業(yè)界在意什么呢?客戶能夠感知到紅色的這五部分;后面的橙色的部分,其實是我們廠方能感知到的東西,最后結(jié)合紅色橙色這八個東西,還要去控制成本。
其實對學術(shù)界,以及很多的創(chuàng)業(yè)公司來說,更集中于做研發(fā)相關(guān)的工作,也就是從零開始。他關(guān)注的特點是穩(wěn)定性、高效性和泛用性。覺得這東西只要能做出來就可以了,可能說從 0 到了 0.5 都有點夸張。這部分工作類似于要從山腳到山頂,在中間找到了一條路,就可以發(fā)論文了。但是工業(yè)界要做的事情,不只是要找到這條路,還要在這條路上去找有沒有其他的路,然后在這條路上繼續(xù)優(yōu)化,甚至還要在上面蓋上水泥路,這才算是一個工業(yè)意義上的做完,工業(yè)會大量做后面的事情。
這個過程可能花 5 到 10 年,是非常非常長的。如果你真的能把后面這些東西做好,沉淀下來賣的東西會變成什么?就是整個的標準化,公司內(nèi)部的標準化、流程質(zhì)量標準化。標準化以后你才能提供給客戶一個低價保質(zhì)保量的產(chǎn)品。然后,如果你的公司真的做到足夠好,在行業(yè)內(nèi)做得最強,那么你就可以把你的標準推向你的行業(yè),你的行業(yè)標準就是你公司的標準。這其實是很多大企業(yè)在做的事情,但這是我們的一個終極目標,就是希望我們把我們的產(chǎn)品做成行業(yè)標準。

其實對工業(yè)界來說,它真正需要的東西也是標準化。因為沒有標準化的東西,對工業(yè)來說是價值不大的,因為做的都是單點項目,在工業(yè)上鋪不開。
我們現(xiàn)在很多工業(yè)界的 AI 公司,可能出于融資的考量,在做的事情就是不斷做0到1的工作??凑衅妇W(wǎng)站上的那些 JD,你就會發(fā)現(xiàn)給算法崗這種 0 到 1 的崗位加特別多的錢。所以很多的從業(yè)者的做法就是,在A企業(yè)干完一個0到1的工作,跳到B企業(yè)去干0到1,再到C企業(yè)去干0到1,一直在干這部分,干的好工資有增長,但是整個行業(yè)可能沒有變化。這里是需要大量從業(yè)的工程師,沉下心來,做一些可以為行業(yè)制定標準的事情。
對于企業(yè)來說,這樣也很難長久發(fā)展,我這邊講一個反面教材。這個是一個 AI+零售 的一個企業(yè),他們當時做的一個場景,其實也比較簡單,本來用人工的一個識別分類工作,現(xiàn)在希望通過計算機視覺去做,這個事情小,但每年都要花掉相關(guān)公司幾個億的成本去做,所以替換的利潤空間是很大的。產(chǎn)品的標簽大概有兩三千種,數(shù)量不是很大,場景是室內(nèi),也不是特別惡劣。當時我的一個同學進這家公司時,這個事情已經(jīng)做了大半年了,但是識別正確率停留在85%就是上不去,也不知道為什么。
然后我這個同學進去之后,一開始以為是算法的問題,然后去算法部門看一下,他們算法團隊很豪華,都是那種頂尖高校畢業(yè)、學術(shù)能力強、工程能力也特別強的,出來一個算法,馬上就能把它落地實現(xiàn)并且調(diào)參。發(fā)現(xiàn)其實已經(jīng)使用了當時最好的模型,然后大概能把這個 85% 的識別率提高到86%、87%,效果也不是很顯著。然后馬上想到是不是數(shù)據(jù)沒做好,就重新回去看數(shù)據(jù)。數(shù)據(jù)標注團隊做得也挺好,是按他給的標簽去標注的,標注的準確率也不錯,應(yīng)該是不會影響最終的識別率的。

最后,他實在不信邪,說你把那個兩千多個標簽都給我拿過來,我一個一個去查。查的時候果然發(fā)現(xiàn)問題了,是一開始標簽就給錯了。那標簽有什么問題呢?第一,它的顆粒度不夠,比如說一瓶可口可樂,很多人可能標的就是“小瓶可口可樂“,”大瓶可口可樂“。但其實我們都知道,小瓶的可口可樂就有 330 毫升的、360毫升的、 380 毫升的,這些東西都不一樣。但在標注的時候,都是按同一個標簽“小瓶可口樂”去標的,這其實會產(chǎn)生很大的問題。第二個問題是,標注人員也不嚴謹,同一個標簽可能是幾個人一起操作的。在標的時候,比如說同一個標簽“ 330 毫升可口可樂”,有的人會寫成 “330 毫升可樂”,有的人寫成 “330 毫升小瓶可口可樂”,有的人寫成“可口可樂 330 毫升”,這個都會對最終的結(jié)果造成影響。
最后解決了這些問題,用最簡單的模型準確率就已經(jīng)到 90% 了,說明這個并不是技術(shù)不行,而是這個流程從一開始就出現(xiàn)了很大的問題,這是個管理問題。
還有另一件事,就是他們拿最好的模型上線之后還要維護,但跑這個模型對性能要求有點高,他們當時在維持這個模型運行過程中也花了很多冤枉錢。我問他當時為什么你不去做一些工程優(yōu)化,優(yōu)化以后,維護成本不是能降很多嗎?他說他們公司老板不愿意去做這個事情,還是覺得要做一些新的東西,從 0 到 1 做最好。
所以,我感覺算法工程師在公司里干完領(lǐng)導布置的工作外,其實還有很大的空間去幫整個上下游,包括從銷售到標注,到軟件開發(fā),到算法以后的交付做標化沉淀。算法工程師是這個公司里面可能唯一一批懂得AI怎么用的人,其實是要去幫助其他人用好、用對AI,去幫助企業(yè)沉淀這件事情的。也就是說把前面的東西都標準化、流程化,比如說售前方案、數(shù)據(jù)標準化,開發(fā)過程標準化以及交付流程的標準化,否則這些事情全部都會落到算法工程師的頭上。你就會看到很多算法部門的人在現(xiàn)場調(diào)代碼,非常累也非常沒有價值,這些東西理應(yīng)沉淀下來以后,更低成本地做。
在我看來的話,其實工業(yè)場景有非常多可以用到 AI 的地方。當然工業(yè)場景的數(shù)據(jù)獲得會比互聯(lián)網(wǎng)代價高很多。因為互聯(lián)網(wǎng)可能你一次點擊,就能獲得一批高質(zhì)量的數(shù)據(jù)。但在工業(yè)現(xiàn)場,你可能得裝一批傳感器,而且要防止設(shè)備造成擾動,還要做數(shù)據(jù)清洗,這些工作都會抬高數(shù)據(jù)獲得成本。但是在獲得數(shù)據(jù),有很多工作可以做。

在生產(chǎn)端,你比如說做質(zhì)量的實時檢測、生產(chǎn)排期,然后以及生產(chǎn)設(shè)備的故障預測;然后研發(fā)端的話,像剛才說的那個設(shè)計參數(shù)的選擇,知識管理以及一些工業(yè)用的 AI 工具的開發(fā);供應(yīng)鏈方面的話,比如說倉儲優(yōu)化,庫存優(yōu)化,供應(yīng)商交期規(guī)劃;維護方面其實也可以做到很多產(chǎn)品故障預測,挖掘客戶需求等。
我們公司現(xiàn)在硬件到今年第三年,標準化已經(jīng)做的差不多了,所以也在計劃說我們是不是開始要去做更多的AI工業(yè)應(yīng)用。比如說我們在現(xiàn)場收集到一些數(shù)據(jù),是不是可以根據(jù)這些數(shù)據(jù)更好地去優(yōu)化我們自己的產(chǎn)品,以及更好地維護我們現(xiàn)場設(shè)備。因為現(xiàn)在現(xiàn)場的設(shè)備都是壞了才去修。其實我們更想知道是能不能通過數(shù)據(jù),預測到故障就去直接提前去維修。所以如果各位有志于進入工業(yè)界,可以考慮在一個工業(yè)的細分領(lǐng)域把你們的從業(yè)時間拉長一些。在充分理解這個行業(yè),知道這個行業(yè)需要什么之后,可以知道能去做哪些改變。
我這邊說的其實也只是一小部分,然后希望能對各位有一些啟發(fā)。然后我們公司就上海,現(xiàn)在公司也需要人,對工業(yè)界感興趣的小伙伴都可以把簡歷發(fā)到我的郵箱,或者說直接來我們辦公室聊一聊。非常歡迎大家加入我們,一起來工業(yè)界搞點事情,謝謝。

歡迎投簡歷,期待和你一起共事
藍捷
上海忍誠科技有限公司 CTO ?
郵箱:lanj@protonrobotics.com
上海市紫星路588號1號樓1101室
