全國小區(qū)數(shù)據(jù),含房價、樓棟數(shù)戶數(shù)等

1、引言
? ? ? ?看房、買房和賣房,基本上是每個人繞不開的坎,可以說從2008年之后,國內(nèi)的經(jīng)濟就開始與房子牢牢的鎖在了一起。筆者早在2017年的時候就開始有買房的打算,那時候山東這個三線城市房價并沒有上漲,高新開發(fā)區(qū)核心地段保持在五六千的價位,沒錯是五六千,對比于現(xiàn)在就跟不要錢一樣,不過那時候剛參加工作沒幾年,人還年輕,不想被房貸控制住自己的一生,于是打算緩一年再買,沒想到就這短短的一年房價漲了大約50%-70%,人總是要為自己不成熟的想法買單的。
? ? ? ?另外,隨著之前2.0版本的AOI數(shù)據(jù)的發(fā)布,很多小伙伴第一時間從我這里獲取了AOI的數(shù)據(jù),也有很多小伙伴提出意見,比如如果房產(chǎn)分類里面包含小區(qū)的戶數(shù),或者房價數(shù)據(jù)就好了。其實關(guān)于房價的數(shù)據(jù)在很久之前就考慮采集過,不過處于一些工作原因,這部分采集工作遲遲沒有開展,這幾天疫情比較嚴重,城市開始靜默管理,于是在家的這段期間又重新開始研究這個數(shù)據(jù)。
2、來源選型
? ? ??筆者對比了諸多的房產(chǎn)網(wǎng)站,比如58、安居客、房天下、21世紀房產(chǎn)等網(wǎng)站后,選用了BK網(wǎng)作為“目標”,BK網(wǎng)的小區(qū)數(shù)據(jù)來源接口與高德POI類似,同一區(qū)域內(nèi)最多顯示100個小區(qū),也就是要想獲取某個城市所有的小區(qū)數(shù)據(jù),還是需要用到區(qū)域四分原理。也就是檢索區(qū)域內(nèi)返回的數(shù)據(jù)是否等于100,若等于100則將區(qū)域均分成4分然后繼續(xù)采集,四分到最后則每個網(wǎng)格里的小區(qū)都小于100。
3、數(shù)據(jù)展示
? ? ? 經(jīng)過13個小時的代碼編寫,2個小時的代碼運行,北京市的小區(qū)數(shù)據(jù)總算是采集完成,北京共采集到約7200條小區(qū)數(shù)據(jù),其中帶有邊界坐標可以矢量化的有6900條。不過我相信這并不是北京所有的小區(qū),有兩種類型的小區(qū)不在本次采集范圍內(nèi):
①、新建樓盤。因為新建樓盤還未在地圖上形成AOI邊界,在地圖上僅以POI點的形式存在,更別說戶數(shù),樓棟數(shù)這些信息,或許就連開發(fā)商都無法確定這個新樓盤未來會有多少棟樓。
②、沒有正在出售二手房的小區(qū),倘若某個小區(qū)內(nèi)所有住戶都沒有在出售住房,或者出售的住房未被BK網(wǎng)收錄,則也無法被采集。


? ? ? ?除去上述兩種情況外,采集到的小區(qū)屬性如上圖所示。
4、數(shù)據(jù)問題
? ? ? 作為一個地理信息數(shù)據(jù)從業(yè)多年的我來說,出于數(shù)據(jù)敏感性,拿到數(shù)據(jù)之后第一時間是對數(shù)據(jù)做一些簡單的檢查,不過這確實發(fā)現(xiàn)了不少的數(shù)據(jù)問題,比如小區(qū)邊界不規(guī)范。
? ? ? 就像下圖這種情況,兩個小區(qū)隔了一條馬路,但是矢量圖形上卻連在了一起,經(jīng)過分析這可能是原本屬于一個大小區(qū)的兩部分,就比如XX小區(qū)東區(qū)西區(qū)一樣,但是BK網(wǎng)方便管理,將小區(qū)的兩個區(qū)合成了一個大的小區(qū)進行管理,且坐標點沒有做分割,于是轉(zhuǎn)出來的效果就變成了這個樣子,但是百度地圖的AOI則沒有這種情況。


? ? ? 再比如下圖這種情況,BK網(wǎng)的小區(qū)邊界和百度的小區(qū)邊界并不套合。

? ? ? 其實這種情況是可以理解的,要知道小區(qū)的邊界沒有官方數(shù)據(jù)。一個小區(qū)的建設,要在政府層面經(jīng)歷勘測定界,規(guī)劃設計,土地出讓,不動產(chǎn)登記等各個環(huán)節(jié),土地出讓環(huán)節(jié)之后,開發(fā)商就算是正式的拿到了土地,然后開始辦理不動產(chǎn)登記手續(xù),以證明這塊土地歸某某開發(fā)商所有,但是實際上這個小區(qū)從勘測定界時測繪到的范圍,和不動產(chǎn)登記時的權(quán)籍調(diào)查的范圍有時候是不一樣的,可能開發(fā)商為了規(guī)避各種問題,會將土地分割后分開辦理不動產(chǎn)登記,以拿到兩本不動產(chǎn)證書。然后小區(qū)建設完成之后,會發(fā)現(xiàn)實際建設的范圍和不動產(chǎn)登記時權(quán)籍調(diào)查的范圍又不一樣,這是因為小區(qū)建設時,可能受到外圍門店的影響,比如外圍門店一直到停車位的一大片范圍雖然不在權(quán)籍調(diào)查范圍內(nèi),但有時開發(fā)商也會進行開發(fā)建設。種種原因?qū)е滦^(qū)實際上沒有官方的邊界范圍。
? ? 再比如,后臺返回的數(shù)據(jù)中,有部分小區(qū)沒有邊界坐標,這種雖然可以獲取下來,但是卻沒辦法轉(zhuǎn)成shp格式的面狀要素。

? ? ??雖然小區(qū)的邊界各個地圖呈現(xiàn)的都不一樣,但是位置是準確的,說明在某個地方,某個范圍內(nèi)確實存在一個小區(qū),這也就可以進行一些比如規(guī)劃選址,人口密度分析,城市變遷,人類活動等各種分析。
6、數(shù)據(jù)如何獲取
? ? ??要知道數(shù)據(jù)的采集會給對方的服務器造成一些負擔,所以本次僅采集北京市的數(shù)據(jù),但是數(shù)據(jù)的獲取邏輯在上文中已經(jīng)告訴了大家,并且網(wǎng)上有很多別人放出的數(shù)據(jù)采集代碼,大家可以去嘗試。同樣針對沒有足夠時間與精力去嘗試代碼的小伙伴們,可以打開下方鏈接,獲取聯(lián)系方式,我們提供的是有償爬取,但價格還是維持在城鄉(xiāng)規(guī)劃的同學們能接受的程度。
注意:下方鏈接下載下來的數(shù)據(jù)并不是本次的樣例數(shù)據(jù)。
咨詢獲取鏈接
鏈接:https://pan.baidu.com/s/16zAn0M-A-nMMsYLEnydVdg?pwd=1234?
提取碼:1234