最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于Python的漢字字頻統(tǒng)計實驗

2023-07-18 10:42 作者:玟玟的大寶貝  | 我要投稿

完整資料進入【數(shù)字空間】查看——baidu搜索"writebug"


實驗內(nèi)容

針對不同語料統(tǒng)計漢字的字頻,并進行比較。

實驗要求和目的

給出前 100 個漢字高頻字的頻率統(tǒng)計結(jié)果;

分別給出前 1、20、100、600、2000、3000、6000 漢字的字頻總和;

計算漢字的熵值;

針對不同規(guī)模語料重復上述實驗;

以圖表的形式表示上述結(jié)果;

提交實驗報告,給出詳細實驗過程和結(jié)果;提交源代碼和可執(zhí)行程序。

實驗環(huán)境

操作系統(tǒng) macOS Sierra

內(nèi)存 16G

開發(fā)語言 Python

程序主要算法

統(tǒng)計字頻,利用 Python 內(nèi)置的逐行讀取和行內(nèi)逐字讀取功能進行字頻統(tǒng)計,建立一個 dict 類型的變量用于記錄每個字對應的個數(shù),如果讀取的字在 dict 中出現(xiàn)過,則 value 值加一,如果讀取到的字在 dict 中未出現(xiàn)過,則在 key 值中添加新讀取的字。核心代碼如下:

with open(filepath, 'r') as txt_file:for line in txt_file:ustr = line.decode(encoding) ? ? ? for uchar in ustr: ? ? ? ? ? if is_chinese(uchar): ? ? ? ? ? ? ? ? ? ? ? account += 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?if _dict.has_key(uchar): ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?_dict[uchar] = _dict[uchar] + 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? else: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? _dict[uchar] = 1

實驗過程

首先進行語料的收集,我收集到有“人民日報 800 萬字語料庫”、“搜狗新聞庫”,并在網(wǎng)上找了一些金庸的小說 TXT 版本。

然后進行代碼的編寫,先確定了核心算法,就是第四步中提及的代碼,然后編寫了如下函數(shù)完成實驗指導中的要求:

給出前 100 個漢字高頻字的頻率統(tǒng)計結(jié)果,對應函數(shù)為:def cal_chinese_word_top100(_dict,_account):

分別給出前 1、20、100、600、2000、3000、6000 漢字的字頻總和。對應代碼為:def cal_chinese_word_7(_dict,_account):

計算漢字的熵值。對應代碼為:def cal_entropy(_list):


基于Python的漢字字頻統(tǒng)計實驗的評論 (共 條)

分享到微博請遵守國家法律
辽中县| 农安县| 中牟县| 新宁县| 鹤岗市| 明溪县| 平原县| 凤冈县| 枣强县| 镇沅| 惠东县| 沙坪坝区| 河间市| 临澧县| 泊头市| 唐山市| 开鲁县| 临沧市| 安庆市| 溧水县| 淮北市| 广饶县| 永春县| 阳朔县| 临沧市| 安福县| 大渡口区| 乳山市| 清原| 乐平市| 永善县| 山丹县| 环江| 靖安县| 多伦县| 樟树市| 古浪县| 沾化县| 无锡市| 承德市| 仪陇县|