最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

我用 20 行代碼告訴你,文科生也該學(xué)點(diǎn)編程

2019-06-21 20:20 作者:清談老濕  | 我要投稿

最近在學(xué)?Python?編程的過程中,發(fā)現(xiàn)一個(gè)有意思的第三方模塊?jieba,用它可以自動(dòng)給文章中的漢字進(jìn)行分詞,并統(tǒng)計(jì)出它們出現(xiàn)的次數(shù)。于是,按照教程輸入相關(guān)代碼,然后讓程序運(yùn)行起來,對(duì)指定的文本進(jìn)行詞頻統(tǒng)計(jì),從而發(fā)現(xiàn)了一些以前不曾知道的秘密。

下圖是對(duì)從網(wǎng)上下載的《二十五史》(下圖①處)統(tǒng)計(jì)前 200 個(gè)高頻詞(下圖②處)的運(yùn)行結(jié)果:

由于該文本有 3000?多萬字,因而在?Jupyter Notebook?中運(yùn)行上面只有 20?行的代碼,也用了 3 分多鐘(上圖紅框內(nèi))。對(duì)運(yùn)行結(jié)果再進(jìn)行人工篩選,去掉一些沒有意義的詞語,最后總結(jié)并繪出《二十五史》(點(diǎn)擊文末”閱讀原文“了解詳情)中的 30?個(gè)高頻詞如下:

從中不難看出,中國(guó)人自己寫的歷史,就是一部帝王將相”搶椅子“的權(quán)力游戲,幾千年來從未改變。

用同樣的代碼和方法再統(tǒng)計(jì)《全唐詩(shī)》和《全宋詞》合并后的文本,前30?個(gè)高頻詞如下:

何處“竟然遙遙領(lǐng)先,成為唐詩(shī)、宋詞中使用最多的詞語,難道這就是中國(guó)古人心中最大的問題嗎?

從整體上看,詩(shī)書和史書中的高頻詞幾乎沒有交集??梢?,這是兩個(gè)完全不同的世界:一個(gè)是殘酷的現(xiàn)實(shí),一個(gè)是惆悵的想像??吹酱颂幍呐笥?,不知你作何感想?如果你也是個(gè)文科生,那像我一樣,趕緊學(xué)點(diǎn)編程技能吧,它對(duì)你的學(xué)習(xí)和工作都大有裨益!

用程序統(tǒng)計(jì)詞頻不光能發(fā)現(xiàn)別人文章背后的秘密,也能了解自己的興趣愛好。比如,我硬盤里收藏了數(shù)千本電子書,它們有什么特點(diǎn)呢?

將所有書名保存到一個(gè)文本文件(與上面的文本一樣,都要使用 UTF-8?編碼,如下圖箭頭所示):

然后再用前面的程序代碼進(jìn)行詞頻統(tǒng)計(jì),結(jié)果前 9 個(gè)高頻詞如下:

雖然書不一定都讀了,但這些高頻詞起碼反映了自己的讀書方向。

最后,再分享一下《四書五經(jīng)》中的12個(gè)高頻名詞:

在這個(gè)大數(shù)據(jù)時(shí)代,不會(huì)處理大數(shù)據(jù),談何競(jìng)爭(zhēng)力?

我用 20 行代碼告訴你,文科生也該學(xué)點(diǎn)編程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
钟山县| 达孜县| 五常市| 临猗县| 丹阳市| 瓮安县| 山阴县| 新干县| 巴林右旗| 龙川县| 双流县| 顺平县| 登封市| 兴宁市| 青田县| 芜湖市| 耒阳市| 平阳县| 固始县| 北京市| 仁怀市| 淳安县| 永嘉县| 镇康县| 辽宁省| 宁海县| 丰县| 镇江市| 彭州市| 湟源县| 津市市| 樟树市| 玉林市| 丹江口市| 侯马市| 津南区| 恩平市| 区。| 永川市| 汝南县| 天津市|