【BanG Dream!】小學(xué)五年級(jí)就能理解的臺(tái)詞——臺(tái)詞文本復(fù)雜度分析
寫在前面
????????文本復(fù)雜度(Text Complexity)指的是一段文本的難讀程度,受詞語(yǔ)長(zhǎng)短、詞語(yǔ)生僻程度、句式等因素影響。
????????不知道諸位對(duì)去年(2020年)的“考場(chǎng)神作”《生活在樹(shù)上》是否還有印象。如果要舉例子的話,這篇文章就是文本復(fù)雜度高的典型案例……
現(xiàn)代社會(huì)以海德格爾的一句“一切實(shí)踐傳統(tǒng)都已經(jīng)瓦解完了”為嚆矢。濫觴于家庭與社會(huì)傳統(tǒng)的期望正失去它們的借鑒意義。但面對(duì)看似無(wú)垠的未來(lái)天空,我想循卡爾維諾“樹(shù)上的男爵”的生活好過(guò)過(guò)早地振翮[1]。
——浙江一考生
????????在以往的多篇文本分析專欄中,我都提到過(guò)角色臺(tái)詞特點(diǎn)和角色本身的特點(diǎn)是相關(guān)的。比如說(shuō)正經(jīng)系的角色會(huì)在臺(tái)詞中使用更多的漢字而非假名,使用第二人稱“あなた”會(huì)產(chǎn)生距離感,等等[2-3]。角色臺(tái)詞的文本復(fù)雜度會(huì)不會(huì)也與角色特點(diǎn)有關(guān)呢?這是本文嘗試探討的問(wèn)題。

怎么用Python判斷文本復(fù)雜度
????????textstat是一個(gè)可以計(jì)算文本復(fù)雜度的Python包,內(nèi)置了16種文本復(fù)雜度算法。只要編寫程序,輸入角色臺(tái)詞,就能用textstat中量化文本復(fù)雜度的函數(shù)計(jì)算并比較角色臺(tái)詞的文本復(fù)雜度。
????????這段Python代碼可以讀取SampleText1.txt、SampleText2.txt、SampleText3.txt中的文字,并在SampleResult.xlsx中輸出結(jié)果。
????????SampleText1的內(nèi)容是一篇英語(yǔ)隨筆《A Puppy for Poppy》,這篇隨筆被選為浙江省2020年1月英語(yǔ)高考的續(xù)寫題。以下是文章選摘:
“I’m going to miss you so much, Poppy,” said the tall, gangly teenager. He bent down to hug his old golden retriever farewell. He stood up, hugged his parents, and smiled, trying not to let his emotions get the better of him[4].
????????SampleText2的內(nèi)容是從China Daily上摘錄的英語(yǔ)新聞片段。以下是新聞選摘:
China's economic growth momentum will pick up next year, supported by a moderate policy easing, and rebalancing will become more significant as the country's development shifts toward a high-quality model, the World Bank said on Wednesday[5].
????????從輸出結(jié)果中可以看到,大概六年級(jí)~初一的學(xué)生就可以理解SampleText1(在中國(guó)作為英語(yǔ)高考題),而SampleText2需要15~16年級(jí)才能理解(?)。


數(shù)據(jù)處理
????????textstat中很多算法只支持分析英語(yǔ)文本,所以我們首先要取得各個(gè)角色臺(tái)詞的英語(yǔ)版本。臺(tái)詞獲取范圍是國(guó)際服截至2021年12月21日實(shí)裝的所有活動(dòng)劇情、卡面小故事和回憶小故事、主線劇情和樂(lè)隊(duì)劇情。角色覆蓋范圍是35個(gè)主要角色、米歇爾和麻里奈,共37位。

????????然后用以下代碼處理英語(yǔ)臺(tái)詞。
????????得到如下結(jié)果。

????????注意到其中dale_chall_readability_score()和difficult_words()兩個(gè)函數(shù)輸出的復(fù)雜度結(jié)果對(duì)角色臺(tái)詞量的依賴比較嚴(yán)重(RAS和Morfonica的數(shù)據(jù)明顯和其它樂(lè)隊(duì)的數(shù)據(jù)不一樣),在之后的數(shù)據(jù)分析中棄去不用。
????????text_standard()返回的結(jié)果集中在五年級(jí)左右。不過(guò)看不出什么差異,在后續(xù)的分析過(guò)程中也棄去不用。
????????根據(jù)剩下的13個(gè)函數(shù)的返回結(jié)果,將各個(gè)角色的臺(tái)詞按從難讀到易讀的順序進(jìn)行排名,名次并列時(shí)取平均排名,再對(duì)13個(gè)排名求平均排名,即得到如下結(jié)果。


結(jié)論與分析
PAREO、紗夜、瑠唯、薰、千圣的英語(yǔ)臺(tái)詞最復(fù)雜,表現(xiàn)為使用的單詞較長(zhǎng)、較少用等。香澄、MASKING、育美、心、透子的英語(yǔ)臺(tái)詞最簡(jiǎn)單易懂。
但不論臺(tái)詞有多復(fù)雜多簡(jiǎn)單,理解臺(tái)詞只需要擁有英語(yǔ)國(guó)家五年級(jí)的文字水平,最多不超過(guò)六年級(jí)。
????????臺(tái)詞文本復(fù)雜度與角色特點(diǎn)之間,總的來(lái)講還是有規(guī)律可循的。
????????在臺(tái)詞復(fù)雜度最高的5個(gè)角色中,就包括了紗夜、瑠唯、千圣3個(gè)邦邦正經(jīng)人擔(dān)當(dāng)。
????????臺(tái)詞復(fù)雜度最低的5個(gè)角色又正好相反,包括了香澄、育美、心、透子等邦邦熊孩子擔(dān)當(dāng),更巧的是這5個(gè)角色的發(fā)色和代表色都是暖色調(diào)……■

參考資料
[1]生活在樹(shù)上_百度百科[EB/OL].(2021-10-15)[2021-12-23].?https://baike.baidu.com/item/%E7%94%9F%E6%B4%BB%E5%9C%A8%E6%A0%91%E4%B8%8A/53236417?fr=aladdin
[2]涼風(fēng)_青葉.?【BanG Dream!】誰(shuí)是全邦最大的話癆?分角色的劇情文本字?jǐn)?shù)統(tǒng)計(jì)[EB/OL].(2021-10-03)[2021-12-23].?https://www.bilibili.com/read/cv13439222
[3]涼風(fēng)_青葉. 哪個(gè)角色最常用“?”和“!”?邦邦日服現(xiàn)有活動(dòng)劇情的爬取,及其詞頻分析?。ㄉ希EB/OL].(2021-05-15)[2021-12-23]. https://www.bilibili.com/read/cv11287090
[4]RV Staff Writer J.C.. A Puppy for Poppy[EB/OL].[2021-12-23].?https://www.readingvine.com/passages/a-puppy-for-poppy
[5]CHEN JIA.?Policy easing key to nation's economic growth momentum[EB/OL]. (2021-12-23)[2021-12-23].?http://www.chinadaily.com.cn/a/202112/23/WS61c3b41fa310cdd39bc7cf88.html