數(shù)據(jù)報告分享|SPSS基于多元回歸模型的電影票房預測
全文鏈接:https://tecdat.cn/?p=33190
原文出處:拓端數(shù)據(jù)部落公眾號
本文通過利用回歸模型對電影的票房(以及放映場數(shù),觀影人數(shù))進行了研究,確定了決定電影的票房的重要因素。并講述、論證了預測電影的票房是電影投資的至關重要的環(huán)節(jié)。通過對電影票房預測技術的發(fā)展和探討,深度剖析了電影票房預測這個研究課題。
一、 電影票房預測發(fā)展簡介
(一) 西方電影票房的研究
美國電影的票房研究起始于上個世紀80年代,由李特曼(B. R. Litman)在1989年以1981到1986年在美國播出的697部電影作為研究樣本,通過多元回歸分析,初步建立了電影票房的預測模型。
我們收集了中國電影發(fā)行放映協(xié)會統(tǒng)計的過千萬票房的國產(chǎn)電影的相關統(tǒng)計指標,共涉及275部影片.

因變量為:
放映場數(shù)(千場):累積量。
觀影人數(shù)(萬人):累積量。
票房(萬元):累積量。票房均值在一億人民幣左右,其中《人在囧途之泰囧》票房達到了12.7億,位列第一。
自變量為:
?影片部分
genre? 影片類別:分類變量,共有15個類型。為了獲得大量的觀眾群體,大多數(shù)影片都兼具許多種影片類型,因此我們僅選取了該片最主要的類型。15個類型分別是:喜劇,魔幻,動作,愛情,災難,歷史劇情,勵志,主旋律,警匪,懸疑,動畫,兒童,驚悚,家庭倫理。
Year 上映年份:2010-2013四年
month 上映月份:1-12
week 上映周數(shù):1-53,從當年1月1號起記為第一周
distribute 電影分級:C/G/L/S
runtime 時常:分鐘。過長或過短的電影都會對票房產(chǎn)生影響,找到合理的時長,從而能夠有效的控制電影的剪輯。
Story 作品是否改編 :該指標是電影產(chǎn)品的核心元素,在內容為王的當下,好的劇本往往能夠吸引受眾,對于國產(chǎn)影片,觀眾更看重的是好的故事,他們往往對國產(chǎn)影片的技術并不抱太大希望。因此,該指標主要包括兩個水平,一是暢銷小說改編成劇本1,另一個則是非改編劇本也就是原創(chuàng)劇本0。(N=改編,S=原創(chuàng)
reality 作品是否真人真事:1=真實,0=虛構
remake? 作品是否翻拍:1=翻拍,0=非翻拍
sequel? 作品是否續(xù)集:好萊塢的一大宗旨是誓將續(xù)集進行到底,真可謂天長地久有時盡,大片續(xù)集無絕期!因為第一,好拍;第二,票房好。那么,在中國市場,這招是否仍然管用?
?導演演員部分
導演姓名
導演年代
第幾部作品:該片是該導演的第幾部作品。冠軍《人在囧途之泰囧》是導演徐崢的處女作,拿到了12億的票房,而喜劇《財神客?!芬呀?jīng)是導演王晶的第110部影片。老導演or新導演,哪一種更吸引人?是久煉成鋼,姜越老越辣?還是廉頗老矣,洗洗回家睡吧?
導演得獎情況:1=得獎,0=沒得獎
導演是否轉型:導演是一門確實能夠自學成才的工種,就像久病成醫(yī),演的多了,拍的多了,自然也能成為優(yōu)秀的導演。在中國電影市場中,演員轉型當導演的趙薇、徐崢;作家轉型的郭敬明、韓寒,我們希望看到已經(jīng)在自己的領域取得成就的這些名人,隨著工種的轉變是否會對票房有影響。
Baidu index 主演的百度指數(shù):影片的主演在分析中是一個字符變量,為了更好的使用這一指標,同時優(yōu)化工作效率,我們決定在相同的時間段,選擇所有演員百度指數(shù)的平均值作為衡量主演的標準。因為大多數(shù)電影不會僅有一個主演,所以我們選取了兩個主演。百度指數(shù)越高,代表該演員知名度越高。
查看數(shù)據(jù) ?該數(shù)據(jù)集有以下一些變量:


從上表可以看到不同變量的缺失數(shù)據(jù)均值中值最大最小值等情況和分布情況。


?模型建立
主要思路 為了準確的估計票房,了解電影票房的一般規(guī)律,更好為電影投資方提供參考意見,本文從電影票房和電影相關屬性出發(fā),采用多元回歸分析方法,建立了線性回歸模型,得出了電影票房變動的影響因素. 具體分析步驟
1.描述性統(tǒng)計,初步查看每個變量的均數(shù)中值等數(shù)據(jù).
2.選擇多項式回歸模型
2.1變量選取 通過回歸模型篩選出顯著性較強的變量進行回歸建模。
2.2顯著性檢驗 根據(jù)F值和p值統(tǒng)計量來判斷模型是否具有顯著的統(tǒng)計意義。
2.3擬合預測 使用得到的模型對實際數(shù)據(jù)進行擬合和預測。
3.擬合不同的模型。查看模型效果。
4.分析得出結論 得出各個自變量之間的關系,以及它們對因變量的影響及其意義。? ?
轉換數(shù)據(jù),擬合多元線性模型
將所有數(shù)據(jù)轉化成數(shù)值類型

?建立多元線性:票房
嘗試通過最直觀的解釋建立模型

?進行多元線性模型并進行分析
從全變量模型可以看出大部分變量無法估計出其參數(shù),說明部分變量不適合用來預測票房,因此對其中的部分變量進行刪減后。得到篩選后的回歸模型。
?篩選變量
?顯示回歸結果


回歸結果分析
從輸出結果的變量sig值可以看出,導演的情況和是否有續(xù)集以及電影的時長對電影的票房有巨大的影響。 從變量的coefficient回歸系數(shù)來看,導演的情況和是否有續(xù)集有正向關關系。
回歸結果
殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:


左圖是殘差直方圖,從圖上可以發(fā)現(xiàn), 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態(tài)分布。
??進行多元線性模型并進行分析——放映場數(shù)


回歸結果分析
從輸出結果的變量sig值可以看出,和票房的回歸結果類似。導演的情況和是否有續(xù)集以及電影的時長對電影的演出場數(shù)有巨大的影響。
回歸結果
殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:


左圖是殘差直方圖,從圖上可以發(fā)現(xiàn), 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態(tài)分布。
進行多元線性模型并進行分析——觀影人數(shù)


回歸結果分析
從輸出結果的變量sig值可以看出,和票房的回歸結果類似。導演的情況和是否有續(xù)集以及電影的時長對電影的演出場數(shù)有巨大的影響。
回歸結果
殘差分析可以對回歸模型的假設條件即隨機誤差項是否獨立同分布進行檢驗,同時還可以找出離群點。 顯示結果如下:


左圖是殘差直方圖,從圖上可以發(fā)現(xiàn), 所有點基本上是隨機地分散在0周圍,密度曲線近似為正態(tài)分布。
最后我們得到了文件結果:

?代碼:
GET DATA?? /TYPE=TXT?? /FILE='E:\電影票房數(shù)據(jù).csv'?? /DELCASE=LINE?? /DELIMITERS=" ,"?? /ARRANGEMENT=DELIMITED?? /FIRSTCASE=2?? /IMPORTCASE=ALL?? /VARIABLES=?? 片名 A30?? 放映場數(shù) A8?? 人數(shù) A10?? boxoffice F9.2?? genre A8?? year A7?? month A4?? week F4.0?? distribute A2?? runtime A3?? story A3?? reality A2?? remake A1?? sequel F1.0?? 導演 A22?? 導演年代 A6?? 第幾部作品 A6?? 導演得獎情況
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標