數(shù)據(jù)科學家思維_怎么樣用數(shù)據(jù)改造現(xiàn)實
數(shù)據(jù)科學家思維:怎么樣用數(shù)據(jù)改造數(shù)據(jù)
導語
我們繼續(xù)“優(yōu)化”模塊的思維模型課程。這節(jié)課我們要討論的問題是,怎樣通過數(shù)據(jù)意識解決問題?
我們在解決問題的過程當中,往往能知道一個大方向,但具體怎么干有時候會不夠清晰。
但是如果我們有意識用數(shù)據(jù)定位問題,我們就往往更容易找到解決問題的抓手。
最善于用數(shù)據(jù)解決問題的專家,我們稱之為數(shù)據(jù)科學家。他跟傳統(tǒng)的數(shù)據(jù)統(tǒng)計最大的區(qū)別就在于,統(tǒng)計的目標停留在了記錄和整理,而數(shù)據(jù)科學家則致力于解決真正的現(xiàn)實問題。
這節(jié)課我們請到了一位特別善于用數(shù)據(jù)解決問題的數(shù)據(jù)科學家,茅明睿。他是數(shù)據(jù)公司城市象限的創(chuàng)始人,也是北京城市規(guī)劃研究院的規(guī)劃設計師。他的強項是借助數(shù)據(jù)分析,來診治大城市病。
他和他的數(shù)據(jù)團隊,做了對北京的回龍觀城區(qū)數(shù)據(jù)分析和改造建議。這套來自民間的方案,后來還被北京市昌平區(qū)政府采納了。這節(jié)課我們就請他來講一講,他是怎樣用數(shù)據(jù),診斷和改造城市的。
這節(jié)課的課程導師是茅明睿,研究員是羅硯,由轉(zhuǎn)述師懷沙來進行轉(zhuǎn)述。
好,下面我們開始。
在今天聽課的過程里面,我提醒你注意一個區(qū)別:通過直覺來進行決策,和通過數(shù)據(jù)來進行決策這兩種之間的區(qū)別。
2016年,我開始著手一個課題:怎么能提升回龍觀社區(qū)的活性?
可能在北京的同學,聽到可能就要會心一笑了?;佚堄^到底是個什么地方呢?
它是北京北五環(huán)外的衛(wèi)星城區(qū),也是出了名的睡城,睡覺的睡。它是1998年被開發(fā)出來的,它當時是用來承接北京中心城區(qū)的拆遷人口,也是北京第一批經(jīng)濟適用房和回遷房的所在地,目前有超過30萬人口住在那,號稱亞洲第一大住宅區(qū)。
雖然回龍觀住了這么多人,卻始終缺乏活力???0年了,也沒有形成健康的社區(qū)生態(tài)。大量居民白天一起涌到其他城區(qū)上班,然后晚上再一起涌回來睡覺,通勤又擁擠又耗時間,大家都非常痛苦。住了20年,大家也僅僅是把這里當一張床來用。
這也讓回龍觀所屬的北京市昌平區(qū)政府頭疼不已。那該怎么提升城區(qū)的活性呢?
其實,假設你就是一個聰明的政府干部,拍腦袋你都能想到兩個解決辦法:
第一個,白天沒有人,那就增加工作機會,讓人白天回來上班;
第二個,通勤難,就多修路。
但這兩個任務攤出來之后,你可能會長嘆一聲。因為完全無處著手。比如說第一個方案:增加工作機會,那該怎么增加呢?提高哪一類就業(yè)機會呢?開商場還是開工廠?還有第二個方案:多修路,在哪個地方多修路?修公交道還是修地鐵?資源該怎么投入呢?
所有這些問題完全沒有頭緒,這就是用直覺決策的問題所在。
同樣是這個問題,數(shù)據(jù)決策會怎么應對呢?請你回到最小白的視角,跟我一起來看看,以一個數(shù)據(jù)科學家的視角,我們該怎么解決回龍觀的活性問題?
新數(shù)據(jù)是新石油
改造舊城這件事情,人們過去也有很多嘗試。政府也是會從數(shù)據(jù)里尋找決策依據(jù)的,比如說,像下面這些數(shù)據(jù),一個地區(qū)需要幾個圖書館、老年人活動中心呢?這個地區(qū)的就業(yè)崗位和居住的人口數(shù)量分別是多少呢?還有這里土地可開發(fā)空間是多少呢?
我們看到這些數(shù)據(jù)的背后,政府真正關(guān)注的要么是土地價值的提升,要么是基礎(chǔ)設施的完善。但是這些問題的主體,其實是政府。
而當面對“如何提升居民的生活品質(zhì),提升城市活性”這樣的問題,以往的解決方案難以給出準確的答案。
好消息是,這個時代做數(shù)據(jù)的人,有一個大紅利。隨著移動互聯(lián)網(wǎng)的普及和各類傳感器的普遍應用,數(shù)據(jù)的采集成本降低了,我們擁有了大量的底層數(shù)據(jù)。
這些新數(shù)據(jù)就是我們這個時代的新石油啊。無論是數(shù)據(jù)維度的增加,還是精準度的增加,新數(shù)據(jù)讓我們對問題有了更深刻的認識,能指引我們找到更精準的解決方案。
而對于改造城市而言,有哪些新數(shù)據(jù)呢?太多了,我舉幾個例子:
第一個,IC公交卡的刷卡數(shù)據(jù),這個數(shù)據(jù)的利用是過去被忽視的。但是如果深入分析,刷卡數(shù)據(jù)能很好地反映回龍觀居民的通勤行為的軌跡。人們什么時間坐車?坐車去哪?要坐多久?有了這些數(shù)據(jù),我們就能還原回龍觀居民真實的通勤行為。
第二個,手機定位數(shù)據(jù),這里可挖掘信息就太多了。比如說,在回龍觀里有多少真實的居住人口?他們都是在什么時間段待在回龍觀?還有他們用什么手機?這里面的維度就非常多,我就不在這里一一列舉了。
看數(shù)據(jù)還有很多有趣的維度,互聯(lián)網(wǎng)產(chǎn)品也能記錄了大量的城市數(shù)據(jù)。你可以用大眾點評分析城市的餐飲情況,比如回龍觀的餐飲高頻詞是快餐、小吃。相比起其他城區(qū)的高頻詞,你就可以判斷這個城區(qū)的消費水平不算高。
手機、互聯(lián)網(wǎng)產(chǎn)品、攝像頭這樣的傳感器積累了大量的原始數(shù)據(jù),這些都是我們重新了解世界的富礦。其他行業(yè)也迎來了這個機會,關(guān)鍵就是看你能不能利用好這些數(shù)據(jù)。
接下來,我就跟你說說,在拿到回龍觀的數(shù)據(jù)之后,我是怎么用的。
找到參照系,尋找差異點
剛才我們說了,第一件事是找數(shù)據(jù),我做的第二件事,是尋找適合的參照系,來做對比。
怎么來研究回龍觀問題呢?我們找到了北京的另一個衛(wèi)星城區(qū),位于北京東北方向的望京城區(qū),跟回龍觀做一個比對。北京的望京城區(qū),它的常住人口也是30萬,早年也被詬病是睡城,但這幾年城區(qū)活力改善得非常明顯。我們還是用上面那些觀測角度來看看,這兩個社區(qū)有什么不同呢?
我們先來對比一個大數(shù),這兩個城區(qū)常住人口都是30萬,高峰期地鐵的人流量差別有多大?
2018年,北京地鐵站,早高峰進站客流量排名前十的車站里,回龍觀城區(qū)的四個地鐵站全部上榜了,四個地鐵站分別是:回龍觀、霍營、龍澤和回龍觀東大街。而望京城區(qū)沒有一個地鐵站進入前十。
值得追問的問題來了:兩個地方常住人口差不多,為什么乘坐地鐵通勤的人流量差這么多?在城市研究領(lǐng)域,有一個專有名詞形容這種現(xiàn)象,叫做職住分離,職就是職場的職,住就是居住的住。意思是說人們的工作地和居住地相距很遠,那是不是就說明,回龍觀的職住分離現(xiàn)象,要比望京更嚴重呢?
我們搜集了兩地居民的手機定位數(shù)據(jù):
我們就發(fā)現(xiàn)兩地內(nèi)部通勤的比例,也就是說在本地上班的人的比例,回龍觀只有9.4%,而望京有23.7%。望京提供了更多的就業(yè)崗位,四分之一的人都在本地上班,而回龍觀90%以上的人,都得去其他城區(qū)上班。
再看平均通勤距離,回龍觀居民平均通勤距離是10.9千米,而望京只有8.6千米?;佚堄^居民離上班的地方更遠。
再對比一些細節(jié)數(shù)據(jù),兩地的居民花多長時間坐地鐵?
監(jiān)測發(fā)現(xiàn),回龍觀刷卡進站的早高峰比望京早了15分鐘,是早上7點45分就開始了,而望京是8點。晚上回家的時間呢?回龍觀的人更晚。晚上望京刷卡出站的高峰是6點一刻到6點半,而住回龍觀的居民7點到7點一刻才集中刷卡出站,等于說平均晚了45分鐘。
住在回龍觀、乘地鐵通勤的居民,平均下來比望京的人早出門15分鐘,晚到家45分鐘,足足多出了1個小時通勤時間。這還沒算他們在回龍觀站外排隊的時間。
在通勤問題上,回龍觀居民要比望京居民多花1個多小時,也就少了1個多小時的生活時間。難怪他們感覺身體被掏空了。
聽到這你可能還是會覺得,你們這些數(shù)據(jù)科學家也沒什么了不起,只不過是把人們的直觀感受,變成了量化的數(shù)據(jù)嘛。但是接下來再往下聽,你就知道數(shù)據(jù)能起到的作用了。
給出可執(zhí)行的具體方案
通過收集數(shù)據(jù)和別的地區(qū)做參照比對,我明確了兩個關(guān)鍵問題:
第一,回龍觀城區(qū)內(nèi)的工作崗位太少;
第二,地鐵作為主流通勤方式,讓居民們的精力消耗太高。
過去做城市規(guī)劃可能會籠統(tǒng)地提出一些建議,比如增加就業(yè)、多修道路等。但具體怎么落地,其實沒有真正的依據(jù),不當?shù)姆桨高€會帶來新的問題。
這個時候就需要數(shù)據(jù)幫我們找到,到底哪個具體地方、哪類人群問題最突出,最需要被解決。
針對第一個問題,應該給回龍觀多提供什么類型的工作崗位呢?
我分析了回龍觀居民的從業(yè)類型,有兩類人群最為突出:
第一類是從事文化、商業(yè)這類公共服務行業(yè)的人。他們占到了總?cè)藬?shù)的27.5%,而且這類職業(yè)是女性占比最高的。他們工作地點也非常分散,散布在北京城的各個角落。
第二類是程序員,也就是所謂的碼農(nóng),回龍觀離碼農(nóng)的聚集地都非常近,比如說著名的北京中關(guān)村,還有中關(guān)村北面的上地。所以碼農(nóng)們的居住成本也相對較低。
擺在回龍觀政府面前就有兩個選擇,要么多提供公共服務類的工作崗位,要么多提供碼農(nóng)的工作崗位。別忘了,政府的出發(fā)點是提升城市的活性,哪個方案更有效?
我先說答案,解決女性就業(yè)這個方向更有效。
首先,增加碼農(nóng)的工作崗位對城區(qū)的活力沒有什么幫助,甚至會讓城區(qū)的生活品質(zhì)更差。我們客觀的說,碼農(nóng)是沒時間消費的,天天都在加班,他們對城區(qū)活力沒有什么直接貢獻。
但解決女性就業(yè)就非常不同了。
如果我們讓太太更多的在本地就業(yè),她們的通勤時間會變短,女性多出來的時間會干嘛呢?當然是買買買。這就會反過來為本地創(chuàng)造更多的公共服務類的就業(yè)機會,形成了一個正向的循環(huán)。
這樣整個回龍觀社區(qū)就盤活了。一個女性友好的社區(qū),就是一個有活力的社區(qū)。
那我們應該為回龍觀設計什么樣的就業(yè)機會呢?
我們還是來對比一下望京,來看看兩地商業(yè)的供給和需求兩端的情況。
我們可以用手機定位數(shù)據(jù)來對比望京和回龍觀兩地的商業(yè)供給:回龍觀有3家商場,60%都是本地人來消費;而望京有7家,本地消費者只占30%,剩下的70%都是其他城區(qū)的居民來消費。這就說明望京的商業(yè)水平比較高,可以吸引外部的消費者,這是供給端,我們再來看需求端,考察一下回龍觀和望京兩地居民的周末行為軌跡?;佚堄^的人一到周末就往外跑,而望京的人則更多停留在本地活動。很明顯,回龍觀本地的商業(yè)設施,沒有滿足本地居民的需求。
那他們的什么需求沒被滿足?我們找找他們周末去哪就知道了。
回龍觀往南5公里左右,有一個叫做五彩城的購物中心,這個地方是回龍觀居民去得最多的商業(yè)中心。五彩城的客流中,20%來自于回龍觀。那為什么去五彩城呢?因為五彩城有一些回龍觀沒有的消費場所,像一些知名連鎖餐飲、潮流的消費品牌,親子項目和一些家居體驗業(yè)態(tài)。
所以,這類商業(yè)就是回龍觀應該引進的商業(yè)業(yè)態(tài),它們能夠留住更多的女性,無論是吸引這些女性去消費,還是去就業(yè)。
再來看第二個問題,通勤時間長的問題。
通過分析地鐵的刷卡數(shù)據(jù),我們發(fā)現(xiàn)回龍觀早高峰那一小時的客流,他們的出站地點集中在西二旗、五道口、知春路和上地這么幾處,我們發(fā)現(xiàn)這些都是互聯(lián)網(wǎng)公司集中的地方。從數(shù)據(jù)可以看到,碼農(nóng)是地鐵出行的主力人群。
而這些地方到回龍觀的距離是在10公里左右,是正常的通勤距離。其中,上班居民最集中的西二旗,離回龍觀只有5公里左右。
所以,我們發(fā)現(xiàn)了碼農(nóng)們的通勤的直線距離并不遠,近的是5公里,遠的也在10公里左右。不過他們的通勤時間特別長,因為地鐵太擁擠了,體驗也很差。那問題明確了,我們該怎么辦?
傳統(tǒng)的解決方案就是多修路、多修地鐵,這些辦法除了成本高、實施周期長之外不說,它也很可能沒有辦法很好地緩解問題。
其實針對5公里左右的短距離通勤,還有一個選擇,就是騎自行車。 能不能專門修建一條專用的高速自行車道呢?對于碼農(nóng)來說,他們既能縮短通勤時間,而且還能鍛煉身體,一舉兩得。
高速自行車道,在德國、荷蘭、丹麥這些歐洲國家早就有實踐。把自行車道修建成封閉式的高架立交道路,和機動車道路區(qū)分開來,保證自行車不受機動車的干擾。而且路上不設置紅綠燈,只有一些騎行驛站,用來中途休息和維護車輛。
聽起來是不是很有創(chuàng)意?
現(xiàn)在這個想法已經(jīng)不僅僅是創(chuàng)意,已經(jīng)被北京市政府采納了。第一期規(guī)劃路線,從回龍觀到上地,全程6.5公里。按照每小時15公里的正常騎行速度計算,未來早高峰時段,騎自行車會成為回龍觀居民耗時最短的出行方式,全程通勤時間在半小時左右。
那我們回顧一下,通過數(shù)據(jù)分析,我們提出了哪些具體解決方案:
第一個是對回龍觀的公共服務進行升級。在商業(yè)方面建設招募連鎖品牌的商業(yè)中心,并且利用算法新增公共服務設施、優(yōu)化設施布局和可達性,這個建議已經(jīng)在“回天有數(shù)”的整體項目規(guī)劃中了。
第二個是建一條從回龍觀到上地的自行車道。
通過這個案例的具體分析,我想你能看到,沒有數(shù)據(jù)的方案和決策,大多都是拍腦門,而數(shù)據(jù)能給我們的決策提供具體的方向依據(jù)。
總結(jié)
最后,我們總結(jié)一下,你多半不是一個專業(yè)的數(shù)據(jù)科學家,身為外行的你,能怎么用到數(shù)據(jù)科學家的思維模型呢?
第一,關(guān)注那些剛剛出現(xiàn)技術(shù)條件,可以把它記錄下來的新數(shù)據(jù),這些就是當代的新石油,你不利用別人可就利用了。
比如,過去工廠里的零部件出問題了,需要工人一個個去排查,花很長時間還不一定能檢查出來。但現(xiàn)在有了數(shù)字工廠,在每一個關(guān)鍵零件的地方,都裝上了傳感器,就能第一時間發(fā)現(xiàn)問題,極大地提高了運作效率。
第二,要找對比的參照系?;佚堄^怎么改善?答案很難找,但如果你找到一個過去的回龍觀,就很可能找到方向。這個案例就是找到了望京作為參照。
我們這個時代特別容易嘲笑過氣的事物,但過氣的事物還有一個特征,就是它完整地經(jīng)歷過,你可能將來要經(jīng)歷的周期發(fā)展階段。比如,在中國研究社會問題我們就應該關(guān)注日本,當下日本的老齡化、后工業(yè)化問題,可能就是中國幾十年之后將會面臨的狀況。
第三,數(shù)據(jù)的分析一直要深化到變成可執(zhí)行的行動。比如在哪建一條自行車道這樣的具體方案。不然那就跟過去的數(shù)據(jù)報告沒有區(qū)別了,這才是數(shù)據(jù)科學家提供的獨特價值。
我們通??吹降臄?shù)據(jù)報告,往往是連篇累牘,上面充滿了餅狀圖、柱狀圖、線性圖。這給人的感覺就是,把我已經(jīng)明白的事,換個方式再告訴我一遍。這沒有價值,數(shù)據(jù)分析一定要變成可執(zhí)行的具體行動。
好,學完了回龍觀改造的案例。那么在你自己的工作和生活里面,有沒有用數(shù)據(jù)去解決問題的有價值的案例呢?
歡迎你來跟我分享。