最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言IMDb TOP250電影特征數(shù)據(jù)挖掘可視化分析受眾偏好、排名、投票、評分

2023-06-28 22:45 作者:拓端tecdat  | 我要投稿

全文鏈接:https://tecdat.cn/?p=32998

原文出處:拓端數(shù)據(jù)部落公眾號

本文首先介紹了IMDb(互聯(lián)網(wǎng)電影資料庫)?TOP250及其排名算法、評分機(jī)制利弊,幫助客戶通過分析《黑暗騎士》、《肖申克的救贖》和《教父》三部影片在2008年7月至9月評分?jǐn)?shù)據(jù),分析排名變動的原因。其次,通過抓取曾經(jīng)入選電影的生產(chǎn)國家、導(dǎo)演和演員、制作年份、風(fēng)格流派以及當(dāng)前入選的制作年份和各自的計數(shù)、平均打分,總結(jié)IMDb TOP250電影特征,最終得出互聯(lián)網(wǎng)資料庫Top250多為歐美國家制作于上世紀(jì)末本世紀(jì)初劇情片的分析結(jié)果。

IMDb簡介

互聯(lián)網(wǎng)電影資料庫(Internet Movie Database,簡稱IMDb)是一個關(guān)于電影演員、電影、電視節(jié)目、電視明星、電子游戲和電影制作的在線數(shù)據(jù)庫。IMDb創(chuàng)建于1990年10月17日,從1998年開始成為Amazon公司旗下網(wǎng)站,2010年是IMDb成立20周年紀(jì)念。對于電影的評分目前使用最多的就是IMDb評分。

Top250

Top250是IMDb的特色,里面列出了注冊用戶投票選出的有史以來最佳250部電影。只有供影院播出的影片可以參加評選,而短片,紀(jì)錄片,連續(xù)短劇和電視電影不在其列。用戶在從“1”(最低)到“10”(最高)的范圍內(nèi)對影片評分。得分經(jīng)過數(shù)學(xué)公式(IMDb公開的Top250算法[1])的過濾而生成最后的評定。為了保護(hù)結(jié)果不受惡意投票的影響,并且,只有“經(jīng)常投票的用戶”的投票被記入結(jié)果,為保護(hù)公平性,成為該類用戶的條件是保密的。

[1]?The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C =C+(R-C) ×1/(1+m/v)
where:
R = average for the movie (mean) = (Rating)
v = number of votes for the movie = (votes)
m = minimum votes required to be listed in the Top 250 (currently 25000)
C = the mean vote across the whole report (currently 7.0)
for the Top 250, only votes from regular voters are considered.

因此:臨界值m=v,有Rating(WR)=(R+C)/2,即最終得分為用戶打分和平均分的均值,用戶打分有效,但不明顯;v<<m時,有Rating(WR)→C,即打分用戶越少,用戶打分影響越小,越趨近先驗值,;v>>m時,有Rating(WR)→R,即打分用戶越多,用戶打分影響越大,越趨近用戶真實打分。

查看數(shù)據(jù)











head(df)df$`Highest position`=apply(df[,c("rank1" ,"rank2")],1,min)

另外在五部曾經(jīng)成為過Top1里面,除了《肖申克的救贖》和《教父》,《星球大戰(zhàn)》、《黑暗騎士》、《指環(huán)王》都是轟動一時的大片;并且排名達(dá)到過第二的電影里面既有奧斯卡得主也有商業(yè)大片:這說明一部電影在上映或評選時引起的轟動會影響到IMDb排名的劇烈波動。此外,《教父》和《肖申克的救贖》的平均評分分別是9.11和9.10,另外三部拿過第一的電影在平均評分上與前二者有明顯差距。

排名算法探討

IMDb Top250算法的思路就是通過每部影片的評分人數(shù)作為調(diào)節(jié)排序的杠桿:如果這部影片的評分人數(shù)低于一個預(yù)設(shè)值,影片的最終得分會向全部影片的平均分被拉低。

由此可見,平衡評分人數(shù)和得分,避免小眾高分影片排前,是這個計算方法的出發(fā)點(diǎn)??蓡栴}在于:調(diào)節(jié)整個榜單的排序主要依賴于評分人數(shù)預(yù)設(shè)值。若被設(shè)置的很低,那么最終的排序結(jié)果,就是每部影片自身評分從高到低在排序;若被設(shè)置得過高,那么只適用高曝光率的影片。該預(yù)設(shè)值從500被調(diào)整至25000,遺憾的是這個算法仍然無法很好的解決他們的問題。

考慮國內(nèi)電影市場,2015年11月19日上映的《我的少女時代》,在2015年12月19日在豆瓣電影得到了累計超過11萬人次的評分,而1942年上映的《卡薩布蘭卡》,同時刻的評分人數(shù)還不到10萬。近幾年由于觀影方式的多樣化以及影院觀影的持續(xù)火爆,使得新近上映的影片很輕松地就能獲得大量的評分,相較之下,老片子的曝光機(jī)會少了很多。繼續(xù)調(diào)節(jié)評分人數(shù)預(yù)設(shè)值已無法滿足當(dāng)前國內(nèi)電影排行榜的實際需求。

針對以上問題,通常會先用最基本的算法模型來應(yīng)對,然后針對該算法帶來的問題再修改并衍生出新的算法。比如針對評分人數(shù)預(yù)設(shè)值,可以分出老片和新片兩個排行分別對待,或把時間因素考慮在內(nèi)。

評分機(jī)制利弊

對于大部分電影而言,長期來看評分是有一定參考價值的。但由于存在受雇于網(wǎng)絡(luò)公關(guān)公司,或者狂熱粉絲偽裝成普通用戶在網(wǎng)站上刷口碑,給競爭對手抹黑,借以操縱市場的行為,不可盲目迷信分?jǐn)?shù)。

2008年7月18日《黑暗騎士》[1]上映時,諾蘭狂熱粉絲為了將其推上TOP1,晝夜不停給該片打10分,同時給當(dāng)時TOP1的《教父》[2]打1分,終于把一部21世紀(jì)影片送上了TOP1寶座,也讓《肖申克的救贖》的分?jǐn)?shù)超越了《教父》。如今《黑暗騎士》終究不敵歲月洗禮跌下去了,不過《肖申克的救贖》[3]的優(yōu)勢卻保留了下來,成了TOP1。

下面通過采集IMDb相應(yīng)時段數(shù)據(jù),說明該過程:

# 《教父》的IMDb排名走勢圖 ? ?df = read_excel("imdb top250.xls", sheet = 3? )

從1998年開始,《教父》基本上穩(wěn)定地排在Top 250榜單的第一名,而在2008年7月底,突然降到第3名,然后從當(dāng)年8月10日起至今,回升并保持在第二。

data.frame(date,na.omit(df$Change),na.omit(rank,df$Rating),na.omit(df$V

在7月中旬之前,該片每天新增投票100多,但從大約7月20日起,每天新增投票超過1000,同時它的排名降到第2,然后在6天之內(nèi)降至第3。

相比之下《黑暗騎士》排名波動較大,從上圖可以看出,影片于2008年7月中旬上映,在幾天之內(nèi)沖到Top 250的第一,但在這個位置上它只保持了不到一個月,從8月10日開始連連下跌,最低跌到過第12名,今排第6。

df[,c("Date"? , "Change" ,? "Votes" ,? "Rating"????? )]

《黑暗騎士》在2008年7月份的投票變動情況

par(new=TRUE) ?plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="") ?axis(4) ?mtext("y2",side=4,line=3)

《黑暗騎士》在2008年7月份的投票和新增票數(shù)變動情況

上映幾天之內(nèi)新增的票數(shù)和評分的走勢基本一致,可以認(rèn)為大量新增的評分拉高了平均分。之后恢復(fù)常態(tài)的新增票數(shù)對評分作了矯正?!逗诎凋T士》上映,《教父》投票猛增,伴隨排名下降?!逗诎凋T士》超過了《教父》,《教父》又跌到《肖申克的救贖》之下,結(jié)論即:短期內(nèi)惡評《教父》的人大量增加了。

《肖申克的救贖》的IMDb排名走勢圖

《肖申克的救贖》在2008年7、8月份的投票變動情況

par(new=TRUE) ?plot(x, y2,,type="l",col="blue",xaxt="n",yaxt="n",xlab="",ylab="")

2008年7月16日至2008年8月10日《教父》、《黑暗騎士》、《肖申克的救贖》的IMDb排名(《教父》和《肖申克的救贖》對應(yīng)的是次坐標(biāo)軸)

結(jié)合圖表發(fā)現(xiàn),其實《肖申克的救贖》的投票情況也受到了《黑暗騎士》上映的影響,從之前的每天100至200票,猛增到后來的每天600至1000票,個別數(shù)甚至突破1000。和《教父》情況相似,只不過《肖申克的救贖》的目標(biāo)不如《教父》醒目,所以受到的“攻擊”不如《教父》猛烈,最后漁翁得利。

counts <- t(proportion) ?barplot(counts, main="Vote rate",


觀察《教父》、《黑暗騎士》、《肖申克的救贖》的IMDb評分比例,結(jié)合hate votes仇恨投票比例,即打1分的票數(shù)占總票數(shù)之比。《十二怒漢》[1]、《黃金三鏢客》[2]、《低俗小說》[3]等其他Top 10行列的影片這個比例在2.20-3.60%之間,肖申克的救贖為3.40%,比較正常,《黑暗騎士》為3.70%,略偏高,而常年穩(wěn)居第一的《教父》竟高達(dá)6.40%,即出現(xiàn)大量的人給《教父》打1分。從2015年12月18日《教父》、《黑暗騎士》、《肖申克的救贖》的IMDb評分比例可見三者均有被惡評的現(xiàn)象,其中《教父》也高于后兩者。

從TOP 250看受眾電影偏好

25年間,IMDb一共收錄了349.6萬部(集)作品,包括33.6萬部電影長片,38.9萬部電影短片,以及222.4萬集電視劇。每一個作品又分別被打上各式各樣的標(biāo)簽,有77.1萬被打上了“喜劇”標(biāo)簽,“電視真人秀”也多達(dá)16.6萬部,還有15.3萬部配有電影原聲歌單。它還收錄了173.7萬男演員,101.1萬女演員的個人資料,有多少人有昵稱,誰最近八卦新聞多,哪些演員的主頁中同時收錄了他/她說過的經(jīng)典的話,它的采訪視頻甚至是收入信息。這些標(biāo)簽數(shù)據(jù)加上打分和票房系統(tǒng),對于電影開發(fā)和制作,擁有巨大的參考價值。

通過分析TOP 250電影特征,能夠給予觀眾和制作者一些啟發(fā)。亞馬遜也靠IMDb賣出了更多的 DVD和錄像帶。

生產(chǎn)國家

"Russia", ?"Federal Republic of Yugoslavia" ?) ?barplot( y1 ,col="blue",xaxt="n", yaxt="n",xlab="",ylab="" ) ?axis(4) ?mtext("y1",side=4,line=3 )

上圖影片數(shù)擬合冪律分布的可決系數(shù)R2高達(dá)0.988,前五名(包括美國、英國、法國、德國、日本)集中了81.6%的影片。美國電影獨(dú)占鰲頭,一方面原因是IMDb的主要評分人群在北美,主要定位在北美觀眾;另一方面得益于嚴(yán)謹(jǐn)?shù)纳虡I(yè)體系,穩(wěn)定的運(yùn)作。

導(dǎo)演和演員

wb = loadWorkbook("imdb top250.xls") ?df = readWorksheet(wb, sheet = "導(dǎo)演", header = TRUE) ?## 生產(chǎn)國家

上圖影片數(shù)擬合冪律分布的可決系數(shù)R2分別高達(dá)0.899和0.968。觀眾對于導(dǎo)演的喜愛程度不如演員集中。

演員與影片數(shù)和平均評分

df = readWorksheet(wb, sheet = "演員", header = TRUE)

風(fēng)格流派

y=df$Count[-nrow(df)] ?names(y)=df$Genre[-nrow(df)]

風(fēng)格流派與影片數(shù)

影片數(shù)擬合冪律分布的可決系數(shù)R2分別高達(dá)0.839。其中評分最高的是劇情片。由于劇情片的分?jǐn)?shù)除了其本身水準(zhǔn)以外,還會受到一定程度上的情感傾向影響,傾向于勵志、感人、親情、悲劇等一些容易喚起觀眾共鳴的情感,人們更容易對故事本身而不是電影水準(zhǔn)產(chǎn)生認(rèn)可,但最主要的因素仍是電影本身的質(zhì)量好壞。

年份

df[df$Year %in% 1990:1999,-1]

觀察一共884部歷史曾經(jīng)入選的影片制作年份,可見20世紀(jì) 90年代及本世紀(jì)初的電影有比較出色的表現(xiàn)。尤其是1996年(包括《美好事物》、《泰坦尼克號》、《真實的謊言》、《羅密歐與朱麗葉》)、1995年(《七宗罪》、《十二只猴子》)、1994年(《低俗小說》、《阿甘正傳》、《肖申克的救贖》)

此外,入選的影片制作年份分布明顯右偏。雖然20世紀(jì)30年代初到40年代末,特別是1935年到1945年是好萊塢也是美國電影的鼎盛時期。這一時期拍片的數(shù)量最多,1946年的產(chǎn)量達(dá)500部。電影的觀眾也最多,影片獲得的利潤也是最高的,但這并不能說這一時期的影片藝術(shù)水平最高,雖然被之后的作品借鑒,但觀眾最早接觸到的仍是離他們最近的影片。

總結(jié)

通過以上分析可以明顯發(fā)現(xiàn),觀眾的偏好無論是對于生產(chǎn)國家、導(dǎo)演和演員、制作年份還是風(fēng)格流派都服從冪律分布,并能夠大致勾畫出TOP 250電影的典型特征:由歐美國家制作于上世紀(jì)末本世紀(jì)初的劇情片。

面對良莠不齊的影片,通過集體智慧去粗取精,榜單是一種幫助建立品位的電影體并作為生產(chǎn)者參考標(biāo)準(zhǔn)之一: 在IMDb上的口碑直接影響電影公司對于導(dǎo)演、演員的選取。

最受歡迎的見解

1.R語言動態(tài)圖可視化:如何、創(chuàng)建具有精美動畫的圖

2.R語言生存分析可視化分析

3.Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)

4.r語言對布豐投針(蒲豐投針)實驗進(jìn)行模擬和動態(tài)

5.R語言生存分析數(shù)據(jù)分析可視化案例

6.r語言數(shù)據(jù)可視化分析案例:探索brfss數(shù)據(jù)數(shù)據(jù)分析

7.R語言動態(tài)可視化:制作歷史全球平均溫度的累積動態(tài)折線圖動畫gif視頻圖

8.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析案例報告

9.python主題LDA建模和t-SNE可視化


R語言IMDb TOP250電影特征數(shù)據(jù)挖掘可視化分析受眾偏好、排名、投票、評分的評論 (共 條)

分享到微博請遵守國家法律
大竹县| 保德县| 甘洛县| 龙川县| 英超| 略阳县| 呼伦贝尔市| 本溪| 称多县| 墨脱县| 外汇| 滨海县| 泰宁县| 长海县| 共和县| 惠东县| 米泉市| 天门市| 揭东县| 广宁县| 泽库县| 江山市| 西青区| 江津市| 宁明县| 周口市| 南乐县| 九龙坡区| 许昌市| 新昌县| 周至县| 南充市| 武宁县| 定日县| 凤凰县| 嵊州市| 南汇区| 龙门县| 新宁县| 塔河县| 内乡县|