從已有書簽的文獻(xiàn)導(dǎo)出目錄純文本的方法
1 使用 PdgCntEditor + sublime 正則替換 提取
1)在PdgCntEditor軟件打開文獻(xiàn)(文本模式下)。此時會看到軟件提取出的目錄文本,但此時每條目錄后面會有文檔位置的字符中。
2)將上一步的目錄復(fù)制到sublime中,ctrl+H >> 查找 (\d).+\n 【表示以數(shù)字開關(guān)直到句尾的所有字符】 替換 \n 即可。
2 使用 zotero + quicker 文本識別插件 提取
1)zotero在待提取文獻(xiàn)條目處右擊 >> Manage Attachments >> Get Table of Contents ; 然后點出附件pdf, 即可在右邊欄中看到content,但此時直接復(fù)制會復(fù)制到帶markdown_wiki鏈接形式的文本,所以需要配合quicker。
2)使用quicker截圖OCR直接識別zotero提取出的目錄,然后稍作修改即可。
3 使用 PDF閱讀器 + quicker 文本識別插件 + Chatgpt?提取
直接使用quicker截圖OCR對pdf目錄進(jìn)行識別(識別得到的異常符號與縮進(jìn)可能較多),然后輸入GPT,讓其去除異常符號并進(jìn)行合適的縮進(jìn)。