文本分析及機器學習在影視傳媒中的應用——以電視劇《狂飆》為例
影視劇《狂飆》于2023年1月14日在CCTV-8與網(wǎng)絡平臺愛奇藝同步播出。該劇自播出以來,引發(fā)了全民現(xiàn)象級討論,成為2023年度首部爆款劇作?!犊耧j》以兩條故事線為敘事線索,其一為小人物高啟強逐步成為黑社會頭目的“發(fā)家史”;其二為以安欣為代表的政法系統(tǒng)干部與黑惡勢力長達二十年的“斗爭史”。該劇通過“三幕式”時空交錯的敘事手法、精彩且充滿懸念的故事情節(jié)以及鮮活生動具備“反差萌”的人物性格,贏得了觀眾的一致好評。在藝術層面上取得成功的同時,在價值傳播上也獲得了觀眾的認可。劇中通過對“黃翠翠案”“莽村案”和“二·二八槍擊案”等一系列案件的偵破,充分體現(xiàn)了黨和政府掃黑除惡常態(tài)化、不惜一切代價打破保護傘的決心與能力。截至2023年4月10日,《狂飆》在豆瓣網(wǎng)收獲8.5分的高分,有77萬余名觀眾對該劇進行評分,其中有25萬余人發(fā)表觀點參與討論??梢?,將《狂飆》作為研究對象,可以很好的探究“頂流熱劇”何以生成與建構,溯源其“走紅”內在肌理、必備要素與發(fā)生機制,為今后的影視劇創(chuàng)作具有重要的借鑒意義。本文以豆瓣網(wǎng)為數(shù)據(jù)庫,通過Python工具對《狂飆》豆瓣網(wǎng)長評進行數(shù)據(jù)抓取,利用文本分析與機器學習的技術,從觀眾回饋角度使用定量方法對《狂飆》進行深入剖析。
一、豆瓣長評獲取
(一)豆瓣評論
豆瓣網(wǎng)號稱“文藝青年聚集地”,網(wǎng)站以讀書、電影、音樂、同城、小組等核心板塊為中心,依靠網(wǎng)友自發(fā)分享和評價書籍、影視和音樂作品作為高質量輸出內容,具有較強的用戶粘性,反映了國內社會一大部分青年的價值取向和文藝追求。其中,豆瓣影視的評分機制賦予大眾一人一票的公平投票權利,受商業(yè)化滲透程度較低,成為國內影視劇口碑影響力最重要的參考依據(jù)之一。豆瓣評論通常包括長評與短評,短評數(shù)量龐大,但評價內容較少,信息密度不高,容易被“水軍”占領輿論陣地,發(fā)生刷分刷負現(xiàn)象,從而產生信息噪音。相比較而言,長評數(shù)量雖然明顯更少,但長評的細節(jié)豐富,對故事情節(jié)、角色刻畫、邏輯架構的批判與分析更為到位,言之有物的內容充分表達了觀眾的意識形態(tài)和情感需求,因此本文選取豆瓣長評作為文本分析的主要研究對象。
(二)數(shù)據(jù)爬取
利用Python3.8工具爬取豆瓣網(wǎng)關于電視劇《狂飆》的影視長評內容,具體步驟包括三步:(1)獲取長評內容網(wǎng)址鏈接(https://movie.douban.com/subject/35465232/reviews),分析網(wǎng)站結構;(2)導入requests、BeautifulSoup等第三方庫,通過編寫代碼發(fā)送請求并返回響應,并使用正則表達進行內容解析,獲得所需數(shù)據(jù)(核心代碼見附錄1,結果備索);(3)將爬取數(shù)據(jù)儲存至CSV表格中。
通過爬蟲及數(shù)據(jù)清洗獲得用戶昵稱、發(fā)評時間、長評內容、評分、評論影響(贊同與反對)、評論字數(shù)等相關信息,由于存在重復評論和被折疊評論,經刪除無效數(shù)據(jù)后最終共抓取3075條評論,涵蓋了97%的總長評數(shù)。原始數(shù)據(jù)結構如下:

注:以上表格僅展示部分數(shù)據(jù),用戶昵稱從第二個字起用“*”號隱去。
二、豆瓣長評分析
(一)長評評分、評論及觀眾特征
本文利用Python的第三方庫pyecharts對爬取的3 075條評論進行可視化分析,排除657個用戶未進行評分,剩下2 418個數(shù)據(jù)的評價結果如圖所示。從圖1可以看出,在所有長評數(shù)據(jù)中,超過一半(52.4%)的觀眾給出五星好評(力薦),30.2%的豆友給出四星好評(推薦),12.2%的觀眾給出三星評價(還行),而一星二星觀眾相對較少,合計僅占所有觀眾人數(shù)的5%左右,該樣本統(tǒng)計結果與77萬人參與的豆瓣總體評分也較為接近(5星占比41.3%,4星占比44.9%,3星占比12.1%,2星占比1.2%,1星占比0.5%),超過八成的人群認為電視劇《狂飆》值得推薦。

圖1:《狂飆》評分
值得關注的是,長評觀眾傾向于更加明顯的情緒表露,表現(xiàn)為占比更高的五星好評和一星差評,這種更加激進的情緒輸出也驅動他們在評論區(qū)花費更多的筆墨表達自己強烈的情感。長評的平均字數(shù)為852字,最高字數(shù)為16 470字,最低為71字。與之對比的是,我們爬取了一部分短評(521條數(shù)據(jù)),經統(tǒng)計發(fā)現(xiàn)短評平均字數(shù)為90字,最高為350字,最低僅有2字。從圖2中可以看出,對電視劇《狂飆》評價較高(五星和四星評價)的長評觀眾不吝贊美,平均評論字數(shù)為900-1 000字,明顯多于其他評價組。而一星觀眾稍顯“敷衍”,平均評論字數(shù)下降到558字。

圖2:《狂飆》長評字數(shù)
《狂飆》共39集,每集45分鐘。1月14日首日愛奇藝會員更新5集,除1月21日和22日(農歷除夕和初一)停播以外,其余每日于晚間19:30更新2集。視頻播出前期,日評論數(shù)量相對平穩(wěn)。1月23日,評論有小幅度攀升,日長評超過30條。1月28日,評論數(shù)量陡增至88條,到完結日2月1日當天評論數(shù)量達到257條。評論熱度的峰值出現(xiàn)在《狂飆》完結的第二天,當日長評數(shù)量高達330條,之后3天的日評論數(shù)量均超過100條,接近一個月后熱度下降,在此之后出現(xiàn)了較強的長尾效應(Long Tail Effect)。

圖3:《狂飆》評論熱度
可以看出,上述豆瓣長評熱度趨勢與百度搜索指數(shù)圖形(見圖4)走向基本保持一致,表明豆瓣長評數(shù)據(jù)真實地反映了電視劇《狂飆》受市場的追捧力度?!犊耧j》在中期突然發(fā)力,與1月23日扮演者高啟強的演員張頌文突然沖上微博熱搜第一密切相關[1]。這也證明了角色與演員之間的互動關系。盡管前期反應平平,但最終優(yōu)秀的作品不會被市場埋沒,特別是在信息傳播極度發(fā)達的時代,往往只需要等待一個契機,高分好劇就能被市場發(fā)掘與認可。
?
?
?
?
?
?

圖4:百度搜索指數(shù)(搜索關鍵詞:狂飆)
圖5按照發(fā)表長評的時點繪制的趨勢圖,反映了在不同時段觀眾發(fā)評的活躍度。從發(fā)評時間來看,豆瓣觀眾表現(xiàn)出了“夜貓子”屬性,晚上的評論數(shù)量明顯高于白天,特別是第一集電視劇播出15分鐘(19點45分)后,評論逐漸增加,直到夜間23:30后活躍度才慢慢下降。

圖5:《狂飆》觀眾活躍度
由于長評未顯示IP地址,無法反映評論用戶所在地,本文使用短評觀眾的IP地址近似刻畫觀眾的地理位置。從表2可以看出,北京、上海和廣東三地評論用戶數(shù)量最多,約占總體的32.8%。此外,《狂飆》出現(xiàn)的場景如榕樹、牌樓、腸粉、豬腳面、舞獅等粵地場景及文化元素也吸引了不少廣東觀眾的留言。如表2所示,《狂飆》的觀眾地域分布集中在北上廣大城市和江浙地區(qū),一定程度上反映了經濟發(fā)展與文化繁榮共同促進,但另一方面也讓我們進一步思考網(wǎng)絡話語權在區(qū)域之間的均衡分配的問題。盡管在新媒體時代下,網(wǎng)絡話語權在社會格序中重新分配,但如何更公平地“讓每一個人發(fā)聲”也成為新時代下的影視傳媒與群眾輿論話題下提出了新的挑戰(zhàn)。

(二)長評內容和話題
本文利用Python讀取所有長評,借助哈工大停用詞(stopwords)表去除長評中的停用詞后,通過第三方庫jieba的分詞功能對長評進行分詞,并按降序排列統(tǒng)計每個詞語的詞頻數(shù),詞頻統(tǒng)計結果見表2。利用第三方庫stylecloud繪制詞云圖,詞云圖結果見圖6。圖6顯示觀眾對角色的討論次數(shù)最多,兩大對立主角安欣和高啟強是當之無愧的評論中心,詞頻分布次數(shù)分別為12 159和12 696次,此外,“大嫂/陳書婷”“孟鈺”“徐江”“老默”“趙立冬”“高啟盛”“黃瑤”“孟德?!钡葎∏殛P鍵人物提及頻率也相當高,以上人物出現(xiàn)頻率均超過1 000次。演員方面,討論熱度最高的演員分別是張譯(安欣的扮演者)與張頌文(高啟強的扮演者),二人在長評中被提及的次數(shù)分別為1 508和1 735次。而與主題相關的詞語包括“警察”“掃黑”等。此外,評論中有2 706次提到“劇情”,1 587次提到“演技”,并且“爛尾”的出現(xiàn)頻率為256次,這與豆瓣總體評分從巔峰時9.1分跌落至8.5分也可相互印證。我們通過人工閱讀了涉及“爛尾”的長評,發(fā)現(xiàn)較多觀眾對27集之后的劇情發(fā)展評價較低。


圖6:《狂飆》長評詞云圖
(三)長評情感分析
文本分析的重要領域之一是情感分析。常見的情感分析方法有構建情感詞典,如臺灣大學NTUSD數(shù)據(jù)、清華大學李軍中文褒貶義詞典、Loughran and McDonald詞典等都是已有的情感詞典,通過累計匯總積極消極詞匯對評論情感打分,當出現(xiàn)積極詞匯次數(shù)越多時,評論情感越積極。上述方法對情感詞典的質量要求較高,同時收錄在情感詞典的詞語選擇具有一定的主觀性。因此,本文擬采用機器學習(Machine Learning)中樸素貝葉斯分類算法,使用TF-IDF詞袋法對長評文本進行向量化,并利用MultinomialNB分類器將每一個評論情感分解為消極情緒含量(分類為消極評論的概率)、中性情緒含量(分類為中性評論的概率)、積極情緒含量(分類為積極評論的概率)三類成分,并與長評用戶人工打分進行對比。

通過樸素貝葉斯分類進行情感分類的準確率(Accuracy)接近83%,且該結果具有一定的可靠性。例如,從表4可見,對用戶“L***”的評論,貝葉斯算法認為積極情緒含量接近九成,該用戶對《狂飆》的評分為4星。而用戶“C***”和用戶“大***”評論的積極情緒含量相對下降,中性情緒含量明顯提升,兩人對電視劇的評分為3星。同時由表4可知,與其他組相比,差評組平均消極情緒含量最高(7.22%,4.58%,3.92%),好評組平均積極情緒含量最高(81.04%,77.79%,86.33%),中評組評論的平均中性情緒情緒更加明顯(11.74%,17.63%,9.75%)。但是,使用機器學習算法進行自動分類也存在分類準確性問題,特別是長評語境下情感更加復雜,難以明確區(qū)分情緒差異。

三、思考和總結
以《狂飆》豆瓣長評數(shù)據(jù)為基礎,本文對觀眾的評分評價、評論文本的觀眾特征等定量信息做出分析。借助數(shù)據(jù)來分析影視作品的觀眾反饋,是對影視劇作品研究的新思路與新方法。得出結論如下:
首先,打破“非黑即白”的人物形象塑造定式,適當展示人性的灰度,并不會對主流價值觀產生巨大沖擊,造成正義與邪惡界限上的混淆和模糊。高啟強這一立體的人物設計,表達的是“復雜的惡”而非“簡單的壞”,這使得角色有了層次感和厚重感。觀眾旁觀角色的心理變化歷程,更傾向于“好人變壞是有原因的”,因此對其多了一份理解和同情。這些劇本的設計和人物沖突的處理,無一不是反映了人性的真實和幽微。反派“壞得合理”才能構建流暢的劇情和清晰的邏輯,人物性格的多重性才能引發(fā)觀眾對人性的討論和反思?!犊耧j》中的反派人物高啟強最終鋃鐺入獄,被判死刑,為罪惡付出了慘痛的代價,絕大多數(shù)觀眾表示理解,而非寬宥。從這一點看,影視傳媒在樹立正確的價值觀不僅需要單方面的灌輸和傳導,類似廣泛的、有益的討論也是必不可少的。
其次,突破“工具屬性”的女性形象定位,跳出家庭倫理與都市情感劇的框架與套路來建構女性角色,更符合當下的市場口味。隨著“大女主”電視劇走紅,女性意識的覺醒,市場對女性多元化性格展示需求更高?!犊耧j》塑造的大嫂的形象精明干練,清醒獨立,打破了對女性情緒化特征的偏見。這一角色緩解了觀眾對單薄女性角色塑造市場下的審美疲勞,正如豆瓣觀眾在評論中寫道:“陳書婷作為‘大嫂’沒有依附于劇里任何一個男人而存在,她身上有一種女性獨有的狠勁兒?!钡匀挥杏^眾表示,這部劇中女性角色的整體塑造仍然存在缺陷,女性角色淪為男性角色的陪襯,故事線延展不足。豆瓣長評有助于把握觀眾的需求,了解觀眾的喜好,并鼓勵女性角色新設定的嘗試和探索,同時也反映了觀眾對女性刻畫的豐滿程度提出更高的要求。
最后,本文通過爬取豆瓣影視的長評數(shù)據(jù)進行分析,探討了觀眾對該劇的討論情況和情感傾向。分析表明,該劇引起了觀眾的廣泛關注和討論,尤其在在北上廣大城市和江浙地區(qū)的反響尤為強烈,即使在該劇收官后仍有不小熱度。長評評論中觀眾對角色的討論占據(jù)了很大比例,演員和主題相關的討論也是熱門話題,同時本劇也受到了觀眾的一定批評。采用樸素貝葉斯分類算法的情感分析結果與豆瓣影視評分相符,對差評、中評、好評組的消極、中性、積極情緒含量進行縱向對比展現(xiàn)出顯著差異。但由于長評語境下情感更加復雜,機器學習算法進行自動分類也難以明確區(qū)分情緒差異,也可能存在分類準確性問題。本文的研究方法可以為其他電視劇的討論和評價提供借鑒,為進一步了解觀眾對電視劇的認知和評價提供了一定的參考依據(jù)。
作者:鄧瑤,江西財經大學會計學院2020級博士研究生;榮莉,江西財經大學會計學院博士研究生導師;畢蕾,江西財經大學馬克思主義學院2020級博士研究生。