拓端tecdat|關(guān)聯(lián)規(guī)則APRIORI挖掘豆瓣讀書評(píng)論爬蟲采集數(shù)據(jù)與可視化
?原文鏈接:http://tecdat.cn/?p=26341
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
?本文數(shù)據(jù)采集于豆瓣讀書網(wǎng)站,分析內(nèi)容將基于豆瓣讀書的圖書評(píng)分和評(píng)論信息。 主題將緊緊圍繞以下幾點(diǎn):有哪些書籍值得推薦?一般書籍的價(jià)格是多少?一本書的評(píng)分和評(píng)論數(shù)量之間是否存在某種關(guān)系?
視頻:R語言關(guān)聯(lián)規(guī)則模型(Apriori算法)挖掘雜貨店的交易數(shù)據(jù)與交互可視化
關(guān)聯(lián)規(guī)則模型、Apriori算法及R語言挖掘雜貨店交易數(shù)據(jù)與交互可視化
,時(shí)長07:03
熱門書籍分布
截至爬取之日,熱門書評(píng)數(shù)量實(shí)時(shí)增長,分別是:
①:評(píng)分>=8.0且評(píng)論超過10w+的書籍; ②:只有評(píng)論超過10w+的書; ③:按書評(píng)數(shù)量排名TOP8;

經(jīng)過對(duì)比,我發(fā)現(xiàn)一些值得一讀再讀的名著總是在列表中,而且列表中的大部分書籍都是開卷即有益的好書。 降低標(biāo)準(zhǔn)后,也出現(xiàn)了一些有益的書籍(《平凡的世界》之類的)。
由此可以得出結(jié)論,數(shù)據(jù)分析算法應(yīng)該是綜合多種數(shù)據(jù)得到的權(quán)重模型,所以評(píng)論量大或者評(píng)分高的書不一定值得一讀,綜合考慮得到的結(jié)果可以 被認(rèn)為是公平的。比如郭敬明的《夢(mèng)里花落知多少》,路遙的《平凡的世界》。
書籍的價(jià)格一般都是在什么范圍?
對(duì)于讀書愛好者來說,這是一個(gè)比較關(guān)心的問題。

從上圖我們可以發(fā)現(xiàn),大部分書籍的價(jià)格在20-40之間,其他價(jià)格區(qū)間的書籍相對(duì)較少。 計(jì)算機(jī)專業(yè)書籍的價(jià)格在60-90之間,低于10元價(jià)格范圍的書籍部分是電子書。 我們驚訝地發(fā)現(xiàn)有很多書的價(jià)格超過100元!
可以發(fā)現(xiàn),這些百元以上的書籍,大部分都是史料書籍。 價(jià)格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費(fèi)大量人力。
熱門書籍評(píng)價(jià)指標(biāo)Apriori關(guān)聯(lián)規(guī)則分析
接下來,我們研究3個(gè)關(guān)鍵評(píng)價(jià)指標(biāo):評(píng)分、評(píng)分?jǐn)?shù)量和評(píng)論數(shù)量之間的關(guān)系。Apriori是常用的關(guān)聯(lián)規(guī)則挖掘方法之一,可以找出3個(gè)評(píng)價(jià)指標(biāo)之間的隱藏關(guān)聯(lián)。

使用平行多維圖來觀察流行書籍評(píng)分、評(píng)分?jǐn)?shù)量和評(píng)論數(shù)量的流行關(guān)聯(lián)規(guī)則。 我們發(fā)現(xiàn)大部分書籍的評(píng)分在8.0-8.9之間,評(píng)分?jǐn)?shù)量在20萬-70萬之間。
評(píng)論最多的書有追風(fēng)箏人、解憂的雜貨店、白夜行等,評(píng)分在8.1以上。 基本上,具有更多評(píng)論的作品具有更高的評(píng)分。 但是,有些超高分(9分以上)的作品,評(píng)論數(shù)量卻沒有想象中的多!

最受歡迎的見解
1.探析大數(shù)據(jù)期刊文章研究熱點(diǎn)
2.618網(wǎng)購數(shù)據(jù)盤點(diǎn)-剁手族在關(guān)注什么
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.Python中的Apriori關(guān)聯(lián)算法市場(chǎng)購物籃分析
8.通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
9.python爬蟲進(jìn)行web抓取lda主題語義數(shù)據(jù)分析