從已有書(shū)簽的文獻(xiàn)導(dǎo)出目錄純文本的方法
1 使用 PdgCntEditor + sublime 正則替換 提取
1)在PdgCntEditor軟件打開(kāi)文獻(xiàn)(文本模式下)。此時(shí)會(huì)看到軟件提取出的目錄文本,但此時(shí)每條目錄后面會(huì)有文檔位置的字符中。
2)將上一步的目錄復(fù)制到sublime中,ctrl+H >> 查找 (\d).+\n 【表示以數(shù)字開(kāi)關(guān)直到句尾的所有字符】 替換 \n 即可。
2 使用 zotero + quicker 文本識(shí)別插件 提取
1)zotero在待提取文獻(xiàn)條目處右擊 >> Manage Attachments >> Get Table of Contents ; 然后點(diǎn)出附件pdf, 即可在右邊欄中看到content,但此時(shí)直接復(fù)制會(huì)復(fù)制到帶markdown_wiki鏈接形式的文本,所以需要配合quicker。
2)使用quicker截圖OCR直接識(shí)別zotero提取出的目錄,然后稍作修改即可。
3 使用 PDF閱讀器 + quicker 文本識(shí)別插件 + Chatgpt 提取
直接使用quicker截圖OCR對(duì)pdf目錄進(jìn)行識(shí)別(識(shí)別得到的異常符號(hào)與縮進(jìn)可能較多),然后輸入GPT,讓其去除異常符號(hào)并進(jìn)行合適的縮進(jìn)。?
標(biāo)簽: