采集當(dāng)當(dāng)近30天圖書暢銷榜,做可視化數(shù)據(jù)分析


我有看到一個(gè)博文是有用python對(duì)當(dāng)當(dāng)圖書進(jìn)行爬取并做一個(gè)簡(jiǎn)單的數(shù)據(jù)分析,最后有一個(gè)可視化的數(shù)據(jù)展示。
簡(jiǎn)單的數(shù)據(jù)采集小案例嘗試一下下。
采集工具:八爪魚
采集平臺(tái):當(dāng)當(dāng)圖書(近30日暢銷書,共計(jì)999本)

載入地址采集的第一頁(yè)數(shù)據(jù)只需要標(biāo)題和標(biāo)題的一個(gè)地址,主要考慮的是進(jìn)入圖書詳情頁(yè)的具體數(shù)據(jù)統(tǒng)計(jì)分析。
為了時(shí)間縮短,可以清晰的看到是正在爬取,這邊也在截圖并進(jìn)行文字編輯,目前主要考慮的是看一下哪一家出版社的占比較高,沒(méi)有進(jìn)行全方位數(shù)據(jù)獲取,所以做一個(gè)微觀。全站獲取結(jié)果必然不會(huì)相像。

采集的完整數(shù)據(jù)字段

搞定收官,你可以清晰看到消滅不需要存在的冗余類:出版時(shí)間、大小分類、價(jià)格、評(píng)分、字?jǐn)?shù)為主要的分析預(yù)留數(shù)據(jù)(采集格式或者是整理有誤,缺失的就缺失了只跑流程)。

出版時(shí)間近三年占比較高。

考慮做一個(gè)圖書標(biāo)簽可視化詞云,大分類或許太過(guò)于宏觀模糊只嘗試圖書標(biāo)簽

清除特殊符號(hào)保存為文本文檔,保存格式為ANSI不然分詞會(huì)有亂碼,之前有講過(guò)的哈。

用ROST來(lái)做分詞,左上角功能性分析有分析“字頻”和“詞頻”。

路徑?jīng)]問(wèn)題點(diǎn)擊確定會(huì)把統(tǒng)計(jì)的詞頻自動(dòng)導(dǎo)出到文本文檔。

ROST頂部工具欄有一個(gè)可視化分析打開(kāi)選擇路徑。

很棒棒的喲!
表格中間有價(jià)格和評(píng)分因?yàn)闀r(shí)間就略略略吧!

圖書出版社統(tǒng)計(jì)還是用wps的數(shù)據(jù)透視。

我印象當(dāng)中前三家圖書出版社,三家公司的公司地址都是北京的

好啦,更多的思路也或許是各種工具功能的實(shí)現(xiàn)嘗試。