期刊文獻PDF自動生成目錄書簽--國內(nèi)外學術期刊文獻(IEEETrans等)小標題自動提取生成
[?IEEETrans 等期刊文獻目錄書簽自動提取快速上手?——? 可直接跳轉至第3節(jié)閱讀 ]
1 動機
一篇學術論文的章節(jié)標題構成了整篇文章的骨架,所以讀文章時從書簽目錄開始,不僅能夠快速了解文章的寫作思路和架構,也能夠方便地定位并跳轉到自己感興趣的內(nèi)容。
目錄書簽對于學術閱讀十分重要,但許多國內(nèi)外學術期刊(IEEETrans等)下載好PDF文件后經(jīng)常會發(fā)現(xiàn)并沒有書簽,采用一些自動提取書簽軟件的直接提取效果也往往很差。?
常見的幾種pdf自動書簽方法:
1 Acrobat結構化書簽? 需要pdf自帶結構(如word標題直接導出的pdf)
2 jpdfbookmarks/PdgCntEditor 需要有目錄頁,且需要能夠從pdf復制出目錄文本(適用于非圖片掃描版電子書)
3 FreePic2Pdf 需要有目錄頁(適用于圖片掃描版電子書)
這個教程就可以解決以上痛點,幫你實現(xiàn)論文閱讀過程的書簽自由。
2 自動提取書簽的基本操作?
原料:
1 PDF閱讀器:Adobe Acrobat ..軟件(非Acrobat Reader,其沒有插件功能)
2 功能擴展插件:AutoBookMark插件
基本操作學習:
1 AutoBookMark一鍵輕松生成PDF目錄(書簽)_嗶哩嗶哩_bilibili
2 adobe acrobat dc插件AutoBookMark自動生成目錄 - 奶糖好吃嗎 - 博客園 (https://www.cnblogs.com/delicious-candy/p/plug-in-AutoBookMark.html)
按照以上教程的基礎操作,可以提取出部分標題,但往往也會識別錯誤或無法識別,識別效果并不好。識別效果不好的原因不在于插件功能不佳,而在于沒有采用一些高級設置,根據(jù)特定文獻格式匹配一些特殊的設置。因此,下一節(jié)介紹了一種在此基礎操作之上的快速準確提取目錄書簽方法。
3 期刊文獻提取方法
第一步:安裝軟件及插件(參見上一節(jié)教程)
第二步:直接加載現(xiàn)成的模板提取即可,具體案例與操作如下:
1 國際期刊文獻——IEEE Trans 等(IEEE文獻一般格式都很相似,模板較為通用)
1)下載國際期刊文獻書簽模板文件。
網(wǎng)盤鏈接:https://wwba.lanzouq.com/i5M9r13c4p7i? (需解壓)
2)打開插件選項,加載對應的期刊模板文件(AutoMark_IEEE),完成提取。

2 國內(nèi)期刊文獻——以《電力系統(tǒng)自動化》為例
1)下載國內(nèi)期刊文獻書簽模板文件?
網(wǎng)盤鏈接:https://wwba.lanzouq.com/iRAhK13c4thc(需解壓)
2)打開插件選項,加載對應的期刊模板,完成提取(操作同上)。
其它期刊模板可以參照下一節(jié)內(nèi)容自己制作(歡迎評論區(qū)貢獻)。
4 模板制作原理
這一節(jié)通過具體案例對模板文件所采用的提取設置方法進行解析,以便你掌握書簽提取的一些常用設置技巧,并在以后順利應用于其它期刊文獻的目錄提取與模板制作。
以下分別對四個典型案例進行具體解析:
1 IEEE Transaction 文獻
1)一級標題提取

2)二級標題提取

什么是正則表達式?
?正則表達式是一種用于匹配和操作文本的強大工具,它是由一系列字符和特殊字符組成的模式,用于描述要匹配的文本模式。正則表達式可以在文本中查找、替換、提取和驗證特定的模式?!锁B教程(runoob.com)
正則語法參考:https://www.runoob.com/regexp/regexp-syntax.html
此處所采用的正則表達式解析:
(I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+
-? (I|II|III|IV|V|VI|VII|VIII|IX|X)? 匹配從I到X的任何羅馬數(shù)字
-? \.? 匹配符號“點”
-? \s? 匹配任何空格字符
-? .+? 匹配任意字符串(直到句尾)
這里可以替換為更細致的正則表達式(模板文件所采用的正則表達式):
((I|II|III|IV|V|VI|VII|VIII|IX|X){1}\.\s.+)|(REFERENCES)|(APPENDIX)|(REFERENCES)|(NOMENCLATURE)
3)三級標題提取


此處所采用的正則表達式解析:
(A|B|C|D|E|F){1}\.\s.+
-? (A|B|C|D|E|F) 表示匹配 A、B、C、D、E、F 中任意一個字母。?
-??{1} 表示前面的字母只能出現(xiàn)一次。?
-? \. 表示匹配一個句點。?
-? \s 表示匹配一個空格。?
-? .+ 表示匹配任意字符,至少出現(xiàn)一次。
2 較早期 IEEE Transaction 文獻
二級標題提?。?/p>
3 IFAC會議文獻(類似Elsevier期刊格式的文獻,特點是用阿拉伯數(shù)字進行標題編號)
二級標題提?。?/p>
4? 電力系統(tǒng)自動化
1)二級標題提取

2)三級標題提取

3)模板的保存與導出

5 備注
1.?考慮到插件兼容性,更推薦安裝 32位adobe 和 32位插件 (64位系統(tǒng)一般也可兼容運行)。
2. 歡迎在評論區(qū)留言貢獻其它期刊文獻的書簽提取模板網(wǎng)盤下載鏈接,可以按以下格式留言:|學科大類: xxx||期刊名: xxx||期刊時間:||下載鏈接: xxx||提取碼(可選): xxx|,方便爬取匯總。