數(shù)據(jù)視角可視化分析豆瓣電影評分爬蟲數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=26988
原文出處:拓端數(shù)據(jù)部落公眾號
豆瓣已經(jīng)成為國內(nèi)影迷和影評人的聚集地。 豆瓣評分已經(jīng)成為評價中國電影的重要指標(biāo)。 豆瓣積累了大量的電影數(shù)據(jù),為電影行業(yè)分析提供了重要資源。 豆瓣電影被用來衡量國內(nèi)外電影的發(fā)展。
中國與其他國家對比
匯總年電影總產(chǎn)量。 一直在快速推進(jìn)的電影產(chǎn)業(yè)在2017年出現(xiàn)轉(zhuǎn)折,電影產(chǎn)量開始下滑。 與現(xiàn)在相比,相差1500部左右。 這種趨勢一直持續(xù)。?

中國大陸的評分低于整體評分,然后我們選擇電影數(shù)量排名前三的國家與中國大陸進(jìn)行比較。 日本電影的質(zhì)量非常好,評分一直保持在平均水平以上。 中國大陸、美國和日本的電影評分差距很大。 美國電影評分更高。
總體而言,近年來電影產(chǎn)量有所下降,但評分有所上升。 懷疑兩者之間存在聯(lián)系。
電影類型和爛片分析
再來看看拍攝偏好和爛片率。 現(xiàn)在爛片越來越多。 現(xiàn)在讓我們從數(shù)據(jù)的角度來看。
按爛片率降序排列,不良片定義為:評分低于3.35分(5.9-1.5*(7.6-5.9))。 每種類型的電影數(shù)量需要大于200。
眾所周知,日本有豐富的情色和動畫電影,戰(zhàn)爭片的爛片率最低,其次是懸疑片。 中國恐怖驚悚片的爛片率非常高,不建議觀看。 而且,國產(chǎn)電影包攬了豆瓣爛片前五名:女媧日記拿下豆瓣爛片之王,得分倒數(shù)第一,接著是怨靈宿舍之白紙女生、女導(dǎo)演連環(huán)殺人案、靈異實(shí)錄。
電影數(shù)量分析
統(tǒng)計每個國家的電影數(shù)量,選出前4名的觀察值:
豆瓣采用打星的方式,所以最低分是一星,也就是兩分。
影片數(shù)量超過500部,綜合評分和數(shù)量后,前4名的國家或地區(qū):

在豆瓣,收錄在電影里。 雖然美國、中國大陸、日本都有大量的電影。 但平均評分低于法國、英國、德國和意大利。 其中,德國的電影評分均值最高,英國的電影數(shù)量最多,這意味著相對而言,德國電影的質(zhì)量最高。 從離散值也可以看出,英國部分?jǐn)?shù)據(jù)的離散值非常低,比如:《圍攻唐寧街》,豆瓣評分2.4分,但還是沒有國產(chǎn)神劇2.0分低。 豆瓣包括電影500+的國家或地區(qū),大部分為發(fā)達(dá)國家,或中國、印度等人口大國,說明電影數(shù)量可能與一個國家或地區(qū)的發(fā)展水平有一定的關(guān)系。
本文章中的所有信息(包括但不限于分析、預(yù)測、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,拓端數(shù)據(jù)(tecdat)不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。

最受歡迎的見解
1.R語言動態(tài)圖可視化:如何、創(chuàng)建具有精美動畫的圖
2.R語言生存分析可視化分析
3.Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)
4.r語言對布豐投針(蒲豐投針)實(shí)驗(yàn)進(jìn)行模擬和動態(tài)
5.R語言生存分析數(shù)據(jù)分析可視化案例
6.r語言數(shù)據(jù)可視化分析案例:探索brfss數(shù)據(jù)數(shù)據(jù)分析
7.R語言動態(tài)可視化:制作歷史全球平均溫度的累積動態(tài)折線圖動畫gif視頻圖
8.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析案例報告
9.python主題LDA建模和t-SNE可視化