數(shù)據(jù)分析第6篇|數(shù)據(jù)分析實戰(zhàn)-2023年全國共有多少個興趣點?(二)

首發(fā)于:https://mp.weixin.qq.com/s/mduVkHoqmXNNdALZGdt7sA

一個被數(shù)據(jù)分析困擾的女孩(由即時AI生成)
內(nèi)容導航
契機:為什么要寫這篇文章?
2023年全國興趣點描述型統(tǒng)計分析
第一步:準備數(shù)據(jù)
第二步:讀取數(shù)據(jù)
第三步:進行描述性數(shù)據(jù)分析
第四步:可視化
寫在后面的話
契機:
在人文號公眾號推出的數(shù)據(jù)分析系列文章的《數(shù)據(jù)分析第2篇|深入理解:探究四種常見的數(shù)據(jù)分析類型》一文里,你可以了解到數(shù)據(jù)分析有四種類型:
第一類:描述型數(shù)據(jù)分析
第二類:探索性數(shù)據(jù)分析
第三類:指導性數(shù)據(jù)分析
第四類:預測性數(shù)據(jù)分析
其中,描述性數(shù)據(jù)分析是最基礎(chǔ)也是最簡單的一種數(shù)據(jù)分析類型。最近應一個研究所的邀請,參加了他們的一個課題研究,通過一些渠道獲取到了2023年全國的興趣點數(shù)據(jù),咱們就通過這個實例來學習一下什么是描述性數(shù)據(jù)分析。
2023年全國興趣點描述型統(tǒng)計分析
如果你只關(guān)心結(jié)果,不關(guān)心分析過程,直接查看這個圖表就就可以了。

當然,你也可以點擊這里查看:https://rwb-datav-tempjson-1258828407.cos.ap-guangzhou.myqcloud.com/chinese_2023poi.html

第一步:準備數(shù)據(jù)
要回答文章標題里提出的問題,我們先要準備數(shù)據(jù),數(shù)據(jù)這里已經(jīng)是準備好了的,共有34個省份,poi數(shù)據(jù)也是分散在34個省份的csv文件里。

第二步:讀取數(shù)據(jù)
1 什么是csv格式?
鑒于公眾號的讀者很多是在校同學,在開始之前,先來科普一下什么csv格式的數(shù)據(jù)文件。我們平常使用最多的數(shù)據(jù)文件就是Excel了,Excel的存儲格式一般有兩種:
Excel 97-2003 :.xls
Excel 2007及以上 :.xlsx
如果你使用Excel處理過數(shù)據(jù),你就會發(fā)現(xiàn),對于Excel 97-2003 (.xls),一張表最多只能存儲65536行,對于Excel 2007+ (.xlsx),最多可以存儲1048576行。于是問題來了,那如果你要存儲超過1048576行的數(shù)據(jù)用什么文件呢?
csv格式的文件就是這個問題的解決方案之一。
CSV是Comma-Separated Values的簡稱,是一種常見的文本文件格式,用于存儲和交換簡單的表格數(shù)據(jù)。CSV文件由純文本組成,使用逗號(或其他分隔符)將不同的字段分隔開來。在CSV文件中,每一行表示一個數(shù)據(jù)記錄,每個字段被逗號分隔。每個字段可以是文字、數(shù)字或其他類型的數(shù)據(jù)。CSV文件通常不包含任何格式化或樣式信息,僅用于保存原始數(shù)據(jù)。
例如,下面是一個包含姓名、年齡和職業(yè)的示例CSV文件:Name, Age, Occupation
John Doe, 30, Engineer
Jane Smith, 25, Teacher
Mike Johnson, 35, Doctor
由于CSV格式是一種通用的文本格式,幾乎所有的電子表格軟件和數(shù)據(jù)庫系統(tǒng)都支持導入和導出CSV文件。它就常被用作數(shù)據(jù)交換的一種標準格式了。
2 如何讀取csv格式的數(shù)據(jù)?有哪些注意事項?
你可以使用下面幾種常見的工具來打開csv格式的工具:
1 wps:最多只支持1048576行
2 Excel:最多只支持1048576行

3 NotePad+或者其他專業(yè)的文本編輯器:不限量,但如果你電腦內(nèi)存比較小,你讀取的文件又比較大,會無法打開。

4 windows自帶的記事本:不限量,但如果你電腦內(nèi)存比較小,你讀取的文件又比較大,會無法打開,或者卡死5 人文幫公眾號推出的EasyDatav:傻瓜式導入,只要你內(nèi)存足夠大,理論上沒有上限。

以下是幾個注意事項:
1?編碼處理
CSV文件可能使用不同的字符編碼方式進行保存,如UTF-8、ASCII等,要正確讀取CSV文件,應該根據(jù)實際情況選擇正確的編碼方式。最常見的問題就是你使用Excel打開utf8格式的csv文件,你會發(fā)現(xiàn)亂碼了

2 分隔符選擇:
CSV文件中的字段通常使用逗號作為分隔符,但有時也可以使用其他字符,如制表符(\t)或分號(;)。在讀取CSV文件之前,要確保選擇了正確的分隔符。建議大家用默認的英文逗號來作為分割符。
3 數(shù)據(jù)類型轉(zhuǎn)換:
CSV文件中的所有數(shù)據(jù)都以字符串的形式存儲。如果需要將某些字段解析為特定的數(shù)據(jù)類型(如整數(shù)、浮點數(shù)等),則在讀取CSV文件后,可以對相應的列進行數(shù)據(jù)類型轉(zhuǎn)換。
3 讀取出結(jié)果

古語云:行百里者半九十。你如果把一個數(shù)據(jù)分析的完整過程做下來,你會發(fā)現(xiàn),一般來說,數(shù)據(jù)采集和數(shù)據(jù)處理會占用你大概至少80%甚至更多的時間。而真正用于數(shù)據(jù)分析的時候可能只有20%,甚至更少。我這里偷個懶,直接讓chatGpt代勞了,寫得不錯。
今天,專業(yè)數(shù)據(jù)分析師公布了對中國各省份的興趣點數(shù)量進行的描述性統(tǒng)計分析結(jié)果。這一分析提供了深入了解中國不同地區(qū)興趣點分布的重要見解。根據(jù)數(shù)據(jù)分析結(jié)果表明,截至最新統(tǒng)計,中國共有31個省份和地區(qū)被納入分析范圍。
其中,廣東省以令人矚目的699.26萬個興趣點數(shù)量脫穎而出,成為中國興趣點最多的省份。其次是江蘇省,該省擁有565.17萬個興趣點,排名第二。山東省緊隨其后,位列第三,擁有520.50萬個興趣點。這些省份在興趣點數(shù)量上占據(jù)了領(lǐng)先地位,突顯了其豐富的文化、旅游和商業(yè)資源。
此外,其他省份的興趣點數(shù)量也展現(xiàn)出巨大的潛力和發(fā)展機會。浙江省緊隨前三位,擁有466.86萬個興趣點;四川省以411.56萬個興趣點數(shù)量穩(wěn)居第五;河南省、湖南省和河北省分別擁有365.86萬個、342.84萬個和322.31萬個興趣點。
對于這些數(shù)據(jù),專業(yè)數(shù)據(jù)分析師進行了進一步的統(tǒng)計分析。結(jié)果顯示,興趣點數(shù)量的平均值為6,862,377個,中位數(shù)為3,228,083個。最小值為澳門特別行政區(qū)的22,301個興趣點,而最大值則是廣東省的699.26萬個興趣點。
此外,四分位數(shù)顯示25%的省份和地區(qū)在166.94萬個興趣點以下,50%的省份和地區(qū)在342.54萬個興趣點以下,而75%的省份和地區(qū)在565.07萬個興趣點以下。標準差約為200.52萬,突顯出興趣點數(shù)量的一定程度的離散性。
這一描述性統(tǒng)計分析提供了關(guān)于中國各省份興趣點分布的重要見解。對于政府部門、旅游機構(gòu)、商業(yè)企業(yè)以及文化和體育領(lǐng)域的從業(yè)者來說,這些數(shù)據(jù)都具有重要的參考價值。他們可以作為決策制定、資源配置和市場營銷的基礎(chǔ),為各行各業(yè)的發(fā)展提供支持和指導。
第四步:可視化
雖然是描述型統(tǒng)計分析,但千萬不要以為,描述一下就完了。
一份完整的數(shù)據(jù)分析報告,圖表是必不可少的,很多同學于是就開始自由發(fā)揮了。
畢業(yè)后的第一份工作就是數(shù)據(jù)分析師,也踩過很多坑,為避免你也踩坑,簡單分享一些經(jīng)驗。
1 以終為始,勿忘初心
我們在之前的系統(tǒng)文章中一再強調(diào)數(shù)據(jù)分析的目標是解決問題,解決需求背景中遇到的問題,為決策者進行決策提供數(shù)據(jù)依據(jù)。所以在進行數(shù)據(jù)可視化時,有一個核心原則一定要牢記,數(shù)據(jù)可視化不是目的,它是為了數(shù)據(jù)分析服務(wù)的。目標是把信息傳達給決策者。所以不要過度裝飾和復雜化,大道至簡,只要能說明問題,越簡潔的圖表,越能最高效的傳達信息。
2 善用工具,不要重復造輪子
對于普通人來說,Excel應該是用的最多的數(shù)據(jù)可視化工具。雖然有用的好的,但是對于一般人來說,單單從效率來講,它是不及格的。
其實已經(jīng)有很多比較成熟的BI工具是面向個人開放的,如阿里的Quick BI,網(wǎng)易有數(shù)等等。你只需要導入數(shù)據(jù),然后通過拖拉拽就可以生產(chǎn)簡潔美觀的圖表了。
這些圖表的配色背后都是有專業(yè)的設(shè)計師的心血的,基本拿來即用就可以了。

上面是我使用阿里的quickbi簡單做了幾個圖表。沒有做任何配色,基本是在5分鐘內(nèi)完成的。
分享給你一下,你可以試一下,對個人可以免費試用,可以付很少的錢長期使用:鏈接:https://www.aliyun.com/product/bigdata/bi?

然后我又用了幾天,累計近五個小時,做了一個比較酷炫的效果。做這個可視化地圖是因為有同學付費咨詢,想要實現(xiàn)這個效果,想知道怎么做。
如果僅僅為了這個效果而去浪費這個時間,偏離了數(shù)據(jù)分析的初衷,有點得不償失,當然,如果你的導師或者領(lǐng)導堅持需要那就另當別論了。

寫在后面的話
數(shù)據(jù)分析的本質(zhì)就是解決問題,一個問題一旦被提出來,它就包含了三個要素:用戶、場景和問題。描述性統(tǒng)計也好,探索性數(shù)據(jù)分析也好,都只是手段,而不是目的。
如何滿足用戶在特定場景下的需求,幫助決策者快速決策,才是數(shù)據(jù)分析最為根本的目標。
最后,愿你在數(shù)據(jù)分析的道路上披荊斬棘,所向披靡。我只愿,面朝大海,看到你的收藏和點贊??……
人