淺讀檢索--《淺析非常規(guī)字段與運算符檢索全文庫對檢索效能的提高》
我的公眾號原文鏈接:https://mp.weixin.qq.com/s/2K5X-CvZYUmV4NyrPUcNEg

本文淺讀的對象,為期刊“中國發(fā)明與專利”2020年第17卷增刊1中的檢索相關(guān)文章,作者為來自國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作湖北中心的梅瀟、葉盛。以下淺讀、分析等均僅代表本人觀點,不代表作者梅瀟、葉盛觀點。如有其他理解歡迎交流。
《淺析非常規(guī)字段與運算符檢索全文庫對檢索效能的提高》主要闡述了,當我們在做全文檢索時,如何利用非常規(guī)字段與算符提高檢索效率。
這里有三個知識點,一個是全文檢索,一個是非常規(guī)字段與算符,再一個是全文檢索有何特殊性以至于需要借助他法來提高效率。
1)全文檢索:即在全文范圍內(nèi)進行檢索。全文不同于僅摘要范圍、僅權(quán)利要求范圍或僅說明書范圍等范圍,它是一篇專利公開文獻的內(nèi)容最大化。當我們選擇了全文檢索,那么,至少在文獻源上降低了漏檢幾率。
2)非常規(guī)字段與算符:常規(guī)字段如標題/摘要/權(quán)要、全文、說明書,常規(guī)算符如布爾算符(and/or/not)、鄰近算符、同句同段算符。非常規(guī)即常規(guī)的反義,除此之外的不太常用的字段與算符就是非常規(guī)字段與算符。但作者文中的說明書我保留意見,雖然作者本意在于表達避免重復檢索,然而說明書字段在很多人(至少很多我見過人做的檢索式,包括很多咨詢我檢索問題的人)是常用的字段,并沒到非常規(guī)的地步。
3)全文檢索有何特殊性以至于需要借助他法來提高效率:我們知道,除全文之外,其他常用范圍如摘要、權(quán)利要求,相較全文范圍都是明顯縮小的,在這樣的范圍內(nèi),很多時候只要關(guān)鍵詞選取及表達適當(準確度不一定要很高),關(guān)鍵詞之間用and連接就夠了,噪音不會很大。但全文不一樣,如果純用and連接關(guān)鍵詞,那么就代表我們允許輸入的關(guān)鍵詞可出現(xiàn)在全文任何位置,這可預期的會帶來很大噪音。
1.作者第一個方法,是利用說明書字段以避免重復檢索:“在摘要庫中沒有檢索到合適對比文件的情況下,在全文庫中進行檢索,并且通過采用 DESC 字段,有效地過濾掉了僅在摘要庫中提到、且并未在說明書中出現(xiàn)的需要檢索的關(guān)鍵技術(shù)特征的對比文件。[1]”
審查員在摘要范圍內(nèi)進行檢索是審查員的常規(guī)手段,在較短的檢索時間內(nèi),或在進行試探性的查準檢索時,摘要范圍無疑是不錯的選擇:摘要普遍包含了主要技術(shù)方案和主要功能效果等,且摘要相對其他部分而言重要性很低,因此申請人在此設文字陷阱的可能性也很低。
在摘要部分已經(jīng)瀏覽過后,如果沒有合適對比文件,可以將目光放在其他范圍,如全文。這里單純以說明書范圍來說明其實我是存疑的。因為單純看說明書的話其實就是選擇性的排除了權(quán)利要求書范圍。我推測有個考慮是,權(quán)利要求書的內(nèi)容要么是說明書實施例的上位化概括,要么就是說明書實施例的濃縮,無論如何大概率都會在說明書中有所體現(xiàn)或得到詳細說明/解釋。
同樣的檢索式,已經(jīng)在摘要范圍內(nèi)檢索過并且未發(fā)現(xiàn)合適對比文件或合適對比文件組合缺乏時,轉(zhuǎn)而在說明書范圍中檢索,此時兩個范圍的疊加等同于進行了一次全文檢索。摘要之后選擇說明書檢索而非全文檢索,就是為了避免已經(jīng)進行過的摘要檢索范圍的重復瀏覽。
這對于提高檢索效率而言是容易理解的,主要目的還是避免重復瀏覽文獻。關(guān)于這一點,除了通過字段變換來實現(xiàn),也可以通過部分數(shù)據(jù)庫的功能來實現(xiàn),比如黑馬數(shù)據(jù)庫的已讀設置,可以通過排除概覽、詳覽文獻的方式,來達到避免重復瀏覽的問題:

這個方法有個問題,如作者闡述的一樣:“采用 DESC在全文庫中的檢索必須是在摘要庫已經(jīng)檢索過的情況下,才能夠避免重復檢索[1]”。摘要+說明書等同于全文,這也許合理,但必須基于同一檢索式的前提。如果說明書檢索和摘要檢索檢索式不同,那就不存在理論上的范圍互補。我們幾乎不會只用一個檢索式進行檢索,我們經(jīng)常會調(diào)整,當我們調(diào)整了,最終還是要嘗試全文檢索,因為調(diào)整后的檢索式,尚未運用于摘要范圍。
2.作者第二個方法,是采用頻率算符來降噪:“對于與文獻主題相關(guān)的關(guān)鍵詞必然在文獻的權(quán)利要求書、說明書中反復出現(xiàn),因此通過頻率運算符 FREC 來限定,可以有效地減少檢索噪音干擾。[1]”
這個目的很容易理解。對比文件如果整體上和我預期的目標文件一致,那么我想看到的關(guān)鍵詞,在文中一定會有多次出現(xiàn),這才是強的相關(guān)性。但這個方法我沒用過,不是覺得很難操作,而是風險太大。
如果單單看查準,可以嘗試,但是說起來,對于查準來說,可嘗試手段五花八門,他的優(yōu)勢在哪呢。在于可以限制重要關(guān)鍵詞的出現(xiàn)頻率,以對比文件關(guān)聯(lián)強度來降噪。手段是限制頻率。問題來了,怎樣的頻率合適呢,這個數(shù)字范圍如何選?。孔髡呶闹杏昧薴rec>10這樣的頻率數(shù)。但并沒解釋10這個數(shù)字選取的具體理由和依據(jù),只是說這個技術(shù)特征出現(xiàn)頻率不會少。那其實就是在拼概率和檢索經(jīng)驗了,或簡單說就是在賭,賭對比文件大概率是我所想的這個頻率數(shù)。
頻率和關(guān)鍵詞本身的重要性相關(guān),而關(guān)鍵詞本身的重要性并不能直接用于量化頻率本身,這是一個明顯的轉(zhuǎn)化問題。
我覺得這個方法風險大,另一個原因在于,我考慮到無效檢索中,對比文件即可用證據(jù)出現(xiàn)的位置并不一定,也許就是背景技術(shù)的一個現(xiàn)有技術(shù)方案,也或許就是說明書中一兩句簡單的替代方案描述,此時的可用對比文件,其關(guān)鍵詞頻率數(shù)一定是極低的。但作者本意既是針對實審,也就不糾結(jié)這個原因。
3.作者第三個方法,是采用附圖說明字段來查準:“對于機械結(jié)構(gòu)類的專利文獻,為了能夠清楚、直觀地介紹其技術(shù)方案,其重要的構(gòu)件、技術(shù)手段往往會通過附圖的形式來展現(xiàn),附圖說明則會對附圖的具體內(nèi)容進行簡要的介紹。附圖說明的文字部分很有可能包含了專利文獻的重要技術(shù)手段。[1]”
這讓我回憶起大概兩個月前,我給我學員講作業(yè)解析時,有個學員跟我說到在機械領(lǐng)域?qū)@?,附圖的剖視圖這個類型,如果我們的目標文件,是經(jīng)常出現(xiàn)在剖視狀態(tài)的,那么以剖視來檢索附圖也許會有意想不到的效果。不知道這位學員后來有沒有測試這個方法的檢索效率,但我以為這是個不錯的想法。
任何對目標文件的合理假設,其具備一定必然性時,都可以成為檢索式構(gòu)建的理由。作者這里的處理方法也是一樣,基于對目標文件的合理假設,在機械領(lǐng)域中,附圖說明往往的確會簡單介紹附圖的具體內(nèi)容,那么在附圖中檢索也不失為一種辦法。
參考文獻:
[1]梅瀟,葉盛.淺析非常規(guī)字段與運算符檢索全文庫對檢索效能的提高[J].中國發(fā)明與專利,2020,(17):122-126

黑娃
許利民,思博論壇ID“黑娃”
1)景毅檢索分析團隊負責人、思博論壇版主及檢索講師;
2)知識產(chǎn)權(quán)師、檢索分析師;
3)擅長無效檢索、侵權(quán)檢索、穩(wěn)定性檢索、公眾意見檢索、查新檢索,有豐富的涉訴無效檢索經(jīng)驗,已經(jīng)手包括化工機械、醫(yī)療器械、電商產(chǎn)品、注塑機械等在內(nèi)的許多領(lǐng)域?qū)@麢z索;
4)有對企業(yè)、代理機構(gòu)及高校的專利檢索培訓經(jīng)驗
