將單詞表自動查詢并導(dǎo)出為excel
最近在備考N2,在背單詞書的時候發(fā)現(xiàn)如果可以將單詞輸出為excel就會很方便,查遍網(wǎng)絡(luò)沒有找到成型的工具,作為一個6年Android開發(fā)肯定不會被這點問題難住。考慮到是在mac上執(zhí)行操作,就選擇了python,作為開發(fā)語言。業(yè)務(wù)流程如下。
獲取單詞書詞匯索引文本,通常單詞書可以找到pdf版本,通過ABBYY FineReader工具將pdf的文本提取出來

????2.將全部文本分割為單個單詞,因為識別會有誤差,所以需要進行一些判斷排除錯誤
????3.通過有道詞典API查詢單詞詞義
????????日語為小語種,不會返回詞性、音調(diào)等信息,需要通過訪問返回的url獲取。
????4.訪問網(wǎng)頁使用BeautifulSoup獲取有用信息
????????用一些邏輯判斷獲取中文、音調(diào)、詞性等信息
????5.輸出到excel中

????6.將輸出的單詞與pdf文本的單詞循環(huán)對比,查找出未能通過API翻譯的單詞,輸出到另一個excel中。
? ?????
標(biāo)簽: