關(guān)聯(lián)規(guī)則APRIORI挖掘豆瓣讀書評論爬蟲采集數(shù)據(jù)與可視化
原文鏈接:http://tecdat.cn/?p=26341
原文出處:拓端數(shù)據(jù)部落公眾號
豆瓣讀書是豆瓣網(wǎng)的一個子版塊。 本文數(shù)據(jù)來源于豆瓣讀書網(wǎng)站,分析內(nèi)容將基于豆瓣讀書的圖書評分和評論信息。 主題將緊緊圍繞以下幾點:有哪些書籍值得推薦?一般書籍的價格是多少?一本書的評分和評論數(shù)量之間是否存在某種關(guān)系?
熱門書籍分布
截至爬取之日,熱門書評數(shù)量實時增長,分別是:
①:評分>=8.0且評論超過10w+的書籍; ②:只有評論超過10w+的書; ③:按書評數(shù)量排名TOP8;

經(jīng)過對比,我發(fā)現(xiàn)一些值得一讀再讀的名著總是在列表中,而且列表中的大部分書籍都是開卷即有益的好書。 降低標(biāo)準(zhǔn)后,也出現(xiàn)了一些有益的書籍(《平凡的世界》之類的)。
由此可以得出結(jié)論,數(shù)據(jù)分析算法應(yīng)該是綜合多種數(shù)據(jù)得到的權(quán)重模型,所以評論量大或者評分高的書不一定值得一讀,綜合考慮得到的結(jié)果可以 被認(rèn)為是公平的。比如郭敬明的《夢里花落知多少》,路遙的《平凡的世界》。
書籍的價格一般都是在什么范圍?
對于讀書愛好者來說,這是一個比較關(guān)心的問題。

從上圖我們可以發(fā)現(xiàn),大部分書籍的價格在20-40之間,其他價格區(qū)間的書籍相對較少。 計算機專業(yè)書籍的價格在60-90之間,低于10元價格范圍的書籍部分是電子書。 我們驚訝地發(fā)現(xiàn)有很多書的價格超過100元!
可以發(fā)現(xiàn),這些百元以上的書籍,大部分都是史料書籍。 價格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費大量人力。
熱門書籍評價指標(biāo)Apriori關(guān)聯(lián)規(guī)則分析
接下來,我們研究3個關(guān)鍵評價指標(biāo):評分、評分?jǐn)?shù)量和評論數(shù)量之間的關(guān)系。Apriori是常用的關(guān)聯(lián)規(guī)則挖掘方法之一,可以找出3個評價指標(biāo)之間的隱藏關(guān)聯(lián)。

使用平行多維圖來觀察流行書籍評分、評分?jǐn)?shù)量和評論數(shù)量的流行關(guān)聯(lián)規(guī)則。 我們發(fā)現(xiàn)大部分書籍的評分在8.0-8.9之間,評分?jǐn)?shù)量在20萬-70萬之間。
評論最多的書有追風(fēng)箏人、解憂的雜貨店、白夜行等,評分在8.1以上。 基本上,具有更多評論的作品具有更高的評分。 但是,有些超高分(9分以上)的作品,評論數(shù)量卻沒有想象中的多!
本文章中的所有信息(包括但不限于分析、預(yù)測、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,拓端數(shù)據(jù)(tecdat)不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。

?
最受歡迎的見解
1.探析大數(shù)據(jù)期刊文章研究熱點
2.618網(wǎng)購數(shù)據(jù)盤點-剁手族在關(guān)注什么
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.Python中的Apriori關(guān)聯(lián)算法市場購物籃分析
8.通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
9.python爬蟲進(jìn)行web抓取lda主題語義數(shù)據(jù)分析