文本可讀性計(jì)算方法(最全)
【文本分析介紹】最全的文本可讀性計(jì)算方法
財(cái)務(wù)會計(jì)金融領(lǐng)域的小伙伴,在對年報(bào)或者審計(jì)事項(xiàng)進(jìn)行文本分析的時(shí)候,經(jīng)常會用到文本可讀性指標(biāo)。
我們在這里進(jìn)行匯總介紹,總共介紹五種可讀性的計(jì)算方法。
1. 句子生成概率,使用word2vec模型輸出的句子生成概率衡量可讀性,概率越大,可讀性越高
2? 句均含字量,計(jì)算每個(gè)句子的平均含字量,取其相反數(shù)構(gòu)建句均含字量。值越大時(shí),可讀性越強(qiáng)。
3. 常見字密度,常見字越多,讀者的閱讀障礙越小,文本的可理解性越強(qiáng)。采用常用字占總字?jǐn)?shù)的比例衡量。值越大時(shí),可讀性越強(qiáng)。
4. 專業(yè)術(shù)語密度,大量財(cái)務(wù)會計(jì)術(shù)語(如“損益”“減值”等)的存在,增加了年報(bào)的理解難度,使其難度接近高度專業(yè)化的科技或?qū)W術(shù)論文水平。運(yùn)用每百字中包含會計(jì)專業(yè)術(shù)語個(gè)數(shù)的相反數(shù)來衡量可讀性。值越大時(shí),可讀性越強(qiáng)。
5. 逆接成分密度 當(dāng)句子和段落間存在逆轉(zhuǎn)詞匯(“但是”“然而”等)時(shí),上下文銜接的意思存在較大差異,背離既定的思維慣性,增加了文本邏輯的復(fù)雜度,報(bào)告使用者的閱讀難度加大網(wǎng)。運(yùn)用每百字中包含逆接關(guān)系連接成分個(gè)數(shù)的相反數(shù)來衡量。值越大,表示可讀性越強(qiáng)。



