最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

回歸樹模型分析紀(jì)錄片播放量影響因素|數(shù)據(jù)分享

2022-04-03 13:52 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=26131?

原文出處:拓端數(shù)據(jù)部落公眾號

紀(jì)錄片能夠真實、詳盡地反映一個地區(qū)的風(fēng)貌,展示經(jīng)濟(jì)發(fā)展和社會進(jìn)步。2018年,紀(jì)錄片發(fā)展迅猛,出現(xiàn)了幾部大熱作品,加之BBC紀(jì)錄片造假的輿論導(dǎo)向,讓人們對紀(jì)錄片更加關(guān)注。本文所用的紀(jì)錄片數(shù)據(jù)來自嗶哩嗶哩網(wǎng)站,是目前主流視頻網(wǎng)站上最豐富、最接近的數(shù)據(jù)來源。

數(shù)字特征和文本特征相結(jié)合,分析影響播放量的因素。采用回歸樹模型分析自變量對播放量的影響。

紀(jì)錄片播放量分布

視頻播放量是檢驗視頻質(zhì)量和視頻熱度的一個直觀媒介。內(nèi)容質(zhì)量高、話題性強(qiáng)的視頻自然會引起廣泛關(guān)注。對于沒有與平臺簽約的UP主來說,通過視頻創(chuàng)作激勵計劃和獎勵機(jī)制(充值計劃),播放量與他們的收入直接掛鉤。探討影響紀(jì)錄片播放量的因素,有助于更好地理解如何提高紀(jì)錄片視頻的關(guān)注度,以及如何更好地創(chuàng)作出令人愉悅的自制微紀(jì)錄片。

紀(jì)錄片的播放量與它的內(nèi)容主題有關(guān),有些主題很受歡迎,有些則很小眾。不同的人有不同的興趣點,會體現(xiàn)在彈幕、金幣、分享等指標(biāo)上,所以不同類別下的紀(jì)錄片分布也會有所不同。

為了便于觀察,圖中只顯示了播放量低于7000的紀(jì)錄片。從圖中可以看出,四類紀(jì)錄片的播放量分布存在明顯差異,人文●歷史類紀(jì)錄片的播放量總體上高于其余三類,且呈右偏態(tài)(數(shù)據(jù)集中的所有定量變量都是右偏態(tài)的)。軍事類和社會食品類紀(jì)錄片的分布則比較接近。旅游類紀(jì)錄片的分布比較接近,總的來說,四類紀(jì)錄片的播放量差異很大,因此不能用同一個模型進(jìn)行分析。有必要對參數(shù)進(jìn)行區(qū)分,并對每個類別下的紀(jì)錄片進(jìn)行不同的分析。

紀(jì)錄片高頻詞特點

以下是對各個紀(jì)實分類下的文本的詞頻特征的分析。嗶哩嗶哩網(wǎng)站上最相關(guān)的紀(jì)錄片細(xì)分類別是社會和旅游類,該類別的紀(jì)錄片文本的高頻詞比較生活化。下圖是對該細(xì)分領(lǐng)域的紀(jì)錄片視頻文本進(jìn)行細(xì)分過濾后得到的高頻詞的詞頻圖。

圖中顯示了社會和旅游紀(jì)錄片文本中的12個高頻詞。其中,"旅游 "以1118次排名第一,與 "旅游 "相關(guān)的 "旅游 "和 "旅游攝影 "分別排名第4和第6位。"食品 "以1111次排名第二,與 "食品 "相關(guān)的 "食品 "排名第11。"人文 "以607次排名第五,而與之相關(guān)的 "紀(jì)錄片 "則排名第八。

此外,"中國"、"日本 "和 "世界 "的出現(xiàn)頻率也很高。文字是由UP主編輯的,目的是讓用戶更好地理解視頻內(nèi)容,國家類高頻詞的出現(xiàn)表明,紀(jì)錄片內(nèi)容發(fā)生的國家是觀眾決定是否觀看視頻的重要決定。

詞頻分析顯示了高頻詞在紀(jì)錄片中的分布情況,但不能僅根據(jù)詞頻給出紀(jì)錄片的選擇建議。

播放量的影響因素分析

接下來,我們研究變量對播放量的影響?;貧w樹模型被用來確定自變量對播放量的影響程度。

對回歸樹進(jìn)行模擬,在RMSE折線圖的拐點處確定最優(yōu)的樹深為7,葉子節(jié)點的最小樣本數(shù)設(shè)為25,分支節(jié)點的最小數(shù)量設(shè)為50。

進(jìn)行十折交叉驗證,建立回歸樹,下圖為回歸樹的模型結(jié)構(gòu)。

在圖中,觀察葉子節(jié)點的框線圖可以發(fā)現(xiàn),大部分紀(jì)錄片的播放量都很低,這些紀(jì)錄片位于樹狀圖的左側(cè),其判別變量是評論數(shù)和彈幕數(shù)。樹狀圖的最右邊的葉子節(jié)點劃分了具有高播放量的紀(jì)錄片,其判別變量是評論數(shù)和彈出窗口數(shù),其次是相鄰的左邊葉子節(jié)點,其父節(jié)點有評論數(shù)、彈出窗口數(shù)和硬幣數(shù)的分類變量。因此,與播放次數(shù)密切相關(guān)的變量是彈幕數(shù)、評論數(shù)和金幣數(shù),它們對高播放次數(shù)的影響更大。從右側(cè)的葉子節(jié)點可以看出,如果評論數(shù)、彈幕數(shù)和金幣數(shù)越高,那么播放量也就越高。在建立回歸樹模型時,自變量的重要性依次為:評論數(shù)(44)、彈幕數(shù)(18)、金幣數(shù)(17)、分享數(shù)(8)、粉絲數(shù)(6)、收藏數(shù)(6)和提交數(shù)(1)。最重要的變量是觀眾與紀(jì)錄片視頻和UP主之間的互動程度,UP主在制作視頻和選擇能產(chǎn)生強(qiáng)烈互動的內(nèi)容材料時,可以考慮到這一點。但是,這一點比較主觀,沒有量化的調(diào)整方案,也無法控制,無法確認(rèn)所選的主題素材是否會帶來高數(shù)量的評論和彈幕。

本文章中的所有信息(包括但不限于分析、預(yù)測、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,拓端數(shù)據(jù)(tecdat)不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。

最受歡迎的見解

1.從決策樹模型看員工為什么離職

2.R語言基于樹的方法:決策樹,隨機(jī)森林

3.python中使用scikit-learn和pandas決策樹

4.機(jī)器學(xué)習(xí):在SAS中運行隨機(jī)森林?jǐn)?shù)據(jù)分析報告

5.R語言用隨機(jī)森林和文本挖掘提高航空公司客戶滿意度

6.機(jī)器學(xué)習(xí)助推快時尚精準(zhǔn)銷售時間序列

7.用機(jī)器學(xué)習(xí)識別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用

8.python機(jī)器學(xué)習(xí):推薦系統(tǒng)實現(xiàn)(以矩陣分解來協(xié)同過濾)

9.python中用pytorch機(jī)器學(xué)習(xí)分類預(yù)測銀行客戶流失


回歸樹模型分析紀(jì)錄片播放量影響因素|數(shù)據(jù)分享的評論 (共 條)

分享到微博請遵守國家法律
青龙| 渭源县| 中卫市| 句容市| 文成县| 四子王旗| 康保县| 玛纳斯县| 夏津县| 慈利县| 永泰县| 唐山市| 福贡县| 黄冈市| 遂昌县| 德令哈市| 娄底市| 太仓市| 吉木萨尔县| 崇礼县| 清镇市| 常州市| 安西县| 措勤县| 潜江市| 三门峡市| 淮南市| 佛教| 堆龙德庆县| 红桥区| 青冈县| 临沭县| 江都市| 河曲县| 开阳县| 毕节市| 临泉县| 乌鲁木齐市| 兴山县| 托里县| 长海县|