最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Python小說文本挖掘正則表達(dá)式分析案例

2020-12-25 23:23 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=5673

?

?

約瑟夫·海勒的《第二十二條軍規(guī)》是我最喜歡的小說。我最近讀完了 ,并喜歡整本書中語言的創(chuàng)造性使用和荒謬人物的互動。對于我的可視化類,選擇文本作為我的最終項目“數(shù)據(jù)集”是一個簡單的選擇。

?

?數(shù)據(jù)集

該文有大約175,000個單詞,分為42章。我在網(wǎng)上找到了這本書的原始文本版本并開始工作。

我使用正則表達(dá)式和簡單字符串匹配的組合在Python中解析文本。

我shiny在R中以交互方式可視化這些數(shù)據(jù)集。

地中海旅行

這種可視化映射了整本書中提到的地中海周圍位置的提及。?

人物形象

該圖基本上代表了書中提到不同字符的時間序列。?

我將數(shù)據(jù)繪制為標(biāo)準(zhǔn)散點圖,章節(jié)為x軸(因為它與時間相似),字符為離散y軸,垂直條為標(biāo)記。

?

人物共同出現(xiàn)

?

用于構(gòu)建此可視化的數(shù)據(jù)與前一個中使用的數(shù)據(jù)完全相同,但需要進行大量轉(zhuǎn)換才能將其轉(zhuǎn)換為可表示這些模式的形式。?

聚類為此圖添加了另一個維度。在整本書上應(yīng)用分層聚類方案,以嘗試在角色中找到社區(qū)。再次,使用章節(jié)(1表示現(xiàn)在,0表示不存在)和42維歐幾里德距離用于使用完整鏈接AGNES算法對字符進行聚類。對不同聚類方案和距離測量的樹狀圖進行人工檢查發(fā)現(xiàn),這是最“水平”,因為更頻繁出現(xiàn)的角色占主導(dǎo)地位的方案最少。這是六個簇的樹形圖:

?

當(dāng)用戶選擇通過聚類對圖進行著色時,用于共享相同聚類的字符的共同位置的單元用唯一顏色填充,而顯示來自不同社區(qū)的字符的共同位置的那些單元用灰色陰影。應(yīng)該注意,聚類是在整個文本上執(zhí)行的,而不是由應(yīng)用程序的用戶放大的章節(jié)。我覺得動態(tài)改變聚類會讓人分心。

字母或頻率排序?qū)⑷杭氨ā背蔁o法識別的空間,但按群集排序會將它們帶入緊密的社區(qū),讓觀眾也可以看到群集之間的某些交互。

我對共同位置的編碼和應(yīng)用于每個單元的陰影的映射肯定會引起爭論,而其他聚類方法導(dǎo)致找到非常不同的社區(qū)。也就是說,從定性上講,我花了很多時間用我自己的文本知識來評估結(jié)果,發(fā)現(xiàn)當(dāng)前的實現(xiàn)比我測試的任何其他實現(xiàn)更令人滿意。

我發(fā)現(xiàn)書中的每個主角在某些時候與幾乎所有其他角色互動都非常有趣。我不會期望這么多重疊。與Les Mis相比,情節(jié)更加密集,我懷疑這是由于聚集的章節(jié)數(shù)量的10倍差異。

特色詞

?

這個圖可能是四個圖中最常規(guī)的圖,但可能顯示了對文本的很多見解。

我可以選擇為此可視化選擇堆疊條形圖或堆積區(qū)域圖。我喜歡堆積區(qū)域圖更好地顯示單詞突出的連續(xù)章節(jié),但是承認(rèn)當(dāng)章節(jié)之間存在高度可變性時,三角形形式會扭曲關(guān)系。

?

結(jié)論

我在這個過程中學(xué)到了很多東西,無論是在使用方面,還是在shiny本身方面。

?


Python小說文本挖掘正則表達(dá)式分析案例的評論 (共 條)

分享到微博請遵守國家法律
南丰县| 拜泉县| 河东区| 丰宁| 手游| 石嘴山市| 白朗县| 寿宁县| 临夏市| 卫辉市| 汝南县| 双鸭山市| 类乌齐县| 遂昌县| 双流县| 罗源县| 曲水县| 环江| 鸡东县| 应城市| 奎屯市| 五原县| 邵武市| 铜鼓县| 新蔡县| 本溪市| 德兴市| 仁怀市| 洛阳市| 楚雄市| 大理市| 水城县| 吉林省| 永登县| 宝清县| 麟游县| 岱山县| 舟山市| 虹口区| 巴彦淖尔市| 保山市|