Python 讀取 Word 文檔中的文本
2023-08-29 15:18 作者:bili_82846548227 | 我要投稿
文本是Word文檔中最基本的要素之一,在word文檔中,我們通常需要分析文本、提取文檔中的指定部分文字內(nèi)容并將內(nèi)容導(dǎo)入其他數(shù)據(jù),或者用于 AI 訓(xùn)練以及制作其他文檔等。本文將介紹如何在 Python 應(yīng)用程序中從 Word 文檔中提取文本并保存。Spire.Doc for Python?提供了一個(gè)簡(jiǎn)單的方法直接提取 Word 文檔中的文本內(nèi)容,且不需要大量的復(fù)制粘貼操作。
Word 文檔中提取文本內(nèi)容并寫入 TXT 文件
引入 Spire.Doc for Python
使用此工具操作 Word 文檔之前,需要先將其引入到項(xiàng)目中??梢詮?Spire.Doc for Python 官方網(wǎng)站下載,或直接 pip 安裝。代碼如下:
pip install Spire.Doc
從 Word 文檔中提取文本內(nèi)容并寫入 TXT 文件
Spire.Doc for Python 中的 Document.GetText () 方法可以獲取 Word 文檔中的所有文本并返回字符串,我們可以將返回的字符串寫入到文本文件中進(jìn)行保存。操作步驟如下:
創(chuàng)建 Document 的對(duì)象。
使用 Document.LoadFromFile() 方法載入 Word 文檔。
使用 Document.GetText() 方法獲取文檔中的文本。
將獲取的文本寫入文本文件。
代碼示例:
?

以上是關(guān)于如何使用 Spire.Doc for Python 從 Word 文檔中提取文本的代碼介紹。Spire.Doc for Python 還支持非常多的Word文檔操作,可以前往官網(wǎng)了解,也可以前往Word 組件QQ交流群 913816707 參與討論。