解讀《專利審查研究(第十輯)》--“基于語義相似原理程式化擴展關鍵詞”
我的公眾號原文鏈接:https://mp.weixin.qq.com/s/gPtFesYd4q-SLAIlvafHtQ

本文解讀的對象,為《專利審查研究(第十輯)——檢索特輯》書中“檢索理論研究”部分論文之一。本書由國家知識產(chǎn)權局專利局專利審查協(xié)作北京中心組織編寫、郭雯主編。以下跟讀均僅代表本人觀點,不代表國家知識產(chǎn)權局專利局專利審查協(xié)作北京中心、郭雯觀點。如有其他理解歡迎交流。
《專利有效性檢索》這本書沒剩幾個案例了,我正在找對應專業(yè)領域大佬,后期會更新解讀。但學習不能停啊,因此馬上開始下一本吧。

本文開始解讀《專利審查研究(第十輯)——檢索特輯》。這本書是國家知識產(chǎn)權局專利局專利審查協(xié)作北京中心組織編寫的,結集了40篇檢索論文,共分為“檢索理論研究”、“檢索實踐與經(jīng)驗”、“檢索工具與運用”三個部分?!喲灾@是本北京審查員們的論文集,主要結集了理論、技巧及數(shù)據(jù)庫使用三個方面的論文。粗粗看了幾篇,寫的深度還是很足夠的,不太建議剛準備入門檢索的朋友們看。
本書論文我不會每一篇都寫,出于必要性、領域等各方面原因,我會挑選部分論文進行解讀。
“基于語義相似原理程式化擴展關鍵詞”的作者是黃蕾、趙良、劉婉姬,這是本書第五篇論文。
根據(jù)摘要及引言,本文主要解決的是,難以選取及擴展關鍵詞的問題。什么時候會難以選取及擴展關鍵詞?我在往期的解讀中有舉例:淺讀檢索--《淺談夾具領域如何提高檢索效率》、淺讀檢索--《包含通用結構專利的檢索和審查》??偨Y的說,某個檢索要素是多領域通用的,那么選取及擴展會帶來巨大噪音;某個檢索要素是含糊的,即便說明書也沒有具體解釋,那么選取及擴展是很難的;其他。
既然關鍵詞很難選取及擴展,那就用語義檢索來幫助解決關鍵詞選取及擴展問題,這便是這篇論文的主要解決目的。
作者認為:
“從文獻中抽取的關鍵詞是進行語義檢索的基礎,其反映了構成文獻文本及其技術方案的主要特征。若從批量語義相關文獻的集合中獲取關鍵詞,則能反映本領域此類文獻通用的意思表達方式。當本申請技術方案中包含不易表達的待擴展檢索要素時,通過映射語義相似文本的關鍵詞的比對和推導,就可能找到本領域準確表達待擴展檢索要素的表達方式。[1]”

乍一看是有點懵的。但濃縮總結一下就是:
我從檢索對象中抽出一些內(nèi)容進行語義檢索,然后從語義檢索的檢索結果中找到若干有相似度的專利,從中選取關鍵詞。

應該秒懂了吧。既然關鍵詞不好直接選取及擴展,那么我就拐個彎,我從語義檢索入手,然后找與檢索對象有一定相關性的文獻,之后再從中選取關鍵詞。選取了就可以總結并擴展了,然后就可以構建檢索式了。
這個思路有沒有很熟悉呢。
沒跑了,就是補充檢索。陪大家回憶一下,什么是補充檢索。補充式檢索大概有三種情況:
1)隨時根據(jù)瀏覽到的新信息進行補充在實施塊檢索策略時發(fā)現(xiàn)了相關的分類號或關鍵詞,及時進行補充。這是根據(jù)瀏覽到的新信息進行補充的一種情形。另一種可能的情形是,我們會發(fā)現(xiàn)一些相關的,但是被我們遺漏的可選取分類號或可擴展關鍵詞。這樣的補充檢索情形是三種補充式檢索情況中最常見的。我們幾乎不可能一開始就選取到最準確且全面的分類號和關鍵詞,因此我們在檢索過程中瀏覽發(fā)現(xiàn)的新信息就是很重要的分類號及關鍵詞補充,甚至是補充參考。
2)在具體國家數(shù)據(jù)庫再次使用原策略3)以證據(jù)組合思路補充思考繼續(xù)策略
2和3與本篇論文中補充檢索不是一個類型,因此我就不詳述了。那寫到這里,我們知道了,本篇論文中作者講到的以語義檢索來選取擴展關鍵詞的方式其實是關鍵詞補充檢索方式的一種,也就是說并不是非得用語義檢索的方式才能達到補充檢索的目的。那么其他方式呢?

1)可以借用相似檢索,在與檢索對象的相似文件中選取及擴展關鍵詞,前提是檢索對象是一篇專利而非交底書或其他文獻;

2)可以查閱百度、期刊論文等現(xiàn)有技術,基于對技術更深的了解后,便能進一步選取和擴展關鍵詞了,這種方式往往出現(xiàn)在對檢索對象技術領域專業(yè)詞匯或業(yè)內(nèi)用語不熟悉的情況。

其他方式就不舉例了?;氐奖酒撐摹?br>
理解了原理之后,本篇論文剩下的部分就能一眼看明白了。作者闡述,“模糊檢索要素之所以難以表達,是因為難以預期其在本領域中的準確描述方式。擴展起點往往是一種'意會',或者是檢索要素所在句子、段落或整個文本。[1]”這種方式往往出現(xiàn)在對檢索對象技術領域專業(yè)詞匯或業(yè)內(nèi)用語不熟悉的情況,這與我提到的可用的“查閱百度、期刊論文等現(xiàn)有技術”的補充檢索技巧很適配。語義檢索和查閱現(xiàn)有技術都是可以解決不熟悉特定領域的問題。書中58頁有張圖,是基于語義相似原理的程式化擴展路徑,在此分享一下,順便手中有書的朋友注意下,這里有錯別字。

作者提到應該根據(jù)擴展的預期來選擇或調整檢索命令。也就是說,并不是隨意輸入什么內(nèi)容都能很好的利用語義檢索來達到選取關鍵詞的目的。這是由語義檢索的特質決定的:
“...若某一非發(fā)明點的技術特征出現(xiàn)多次時,在語義檢索的詞頻統(tǒng)計過程中會對技術特征賦予較高權重,反而將真實發(fā)明點的權重降低...[2]”
語義檢索有效性的影響因素會包括輸入內(nèi)容的詞頻及詞義,因此輸入內(nèi)容不可隨意,尤其我個人非常不建議直接輸入專利號或權利要求內(nèi)容進行語義的方式。雖然作者在論文中這么用了,但我還是不建議大家這么做。輸入這些內(nèi)容,相當于直接利用了專利全文或者權要整體內(nèi)容進行語義檢索,即我們對于檢索輸入內(nèi)容是沒有進行調整的,語義檢索的有效性完全且隨意的取決于我們直接搬運的內(nèi)容。
那么怎么解決語義檢索的這個問題?既然問題是我們直接搬運引起的,那我們不直接搬運就可以了。
這一方面可以反向利用其邏輯,控制輸入內(nèi)容的詞頻,另一方面控制輸入內(nèi)容的表達,具體的說可以控制輸入要素的表達準確度,及輸入要素間的位置遠近。第二點解決技巧就不具體闡述,不是本文重點。
剛才我提到作者在論文中用了通過申請?zhí)柣驒嗬髢煞N方式。權利要求另說,單說輸入申請?zhí)栠M行語義,經(jīng)我實踐來看其實準確度是比不上直接拿申請?zhí)栁墨I進行相似檢索的,這里我建議大家如果一定要用申請?zhí)?,那么多試試相似檢索。
總結。

1)語義檢索可以是補充檢索的一種關鍵詞選取手段。
2)語義檢索挺好用,尤其是降低了對特定領域技術理解的依賴性。說白了有點萬金油。3)因為是萬金油,針對很多很多檢索案例其實并不好用,他有噪音極大準確率極低的特點,容易空費檢索耗時,建議大家一定要重視檢索式的構建及調整的學習。
參考文獻:
[1]國家知識產(chǎn)權局專利局專利審查協(xié)作北京中心.專利審查研究(第十輯)——檢索專輯[M].北京:知識產(chǎn)權出版社,2019:55-63
[2]胡瑩瑩,陳勇.論布爾檢索與語義檢索的聯(lián)合運用策略[J].中國發(fā)明與專利,2019,(16):161-166

黑娃
許利民,思博論壇ID“黑娃”
1)景毅檢索分析團隊負責人、思博論壇版主及檢索講師;
2)知識產(chǎn)權師、檢索分析師;
3)擅長無效檢索、侵權檢索、穩(wěn)定性檢索、公眾意見檢索、查新檢索,有豐富的涉訴無效檢索經(jīng)驗,已經(jīng)手包括化工機械、醫(yī)療器械、電商產(chǎn)品、注塑機械等在內(nèi)的許多領域專利檢索;
4)有對企業(yè)、代理機構及高校的專利檢索培訓經(jīng)驗
