最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

淺讀檢索--《論布爾檢索與語義檢索的聯(lián)合運用策略》

2022-10-09 00:13 作者:黑娃-專利檢索  | 我要投稿

我的公眾號原文鏈接:https://mp.weixin.qq.com/s/FLrALbCw68jrSaffzyJ7Iw

本文淺讀的對象,為期刊“中國發(fā)明與專利”2019年第16卷中的檢索相關文章,作者為來自國家知識產(chǎn)權局專利局專利審查協(xié)作四川中心的胡瑩瑩、陳勇。以下淺讀、分析等均僅代表本人觀點,不代表作者胡瑩瑩、陳勇觀點。如有其他理解歡迎交流。


《論布爾檢索與語義檢索的聯(lián)合運用策略》主要闡述了布爾檢索與語義檢索各自的優(yōu)缺點,及在不同情況下如何聯(lián)合運用布爾檢索與語義檢索。本文的語義檢索邏輯是借用了patentics數(shù)據(jù)庫。我知道這個數(shù)據(jù)庫,但不熟悉其具體使用技巧和內(nèi)在邏輯,因此接下來的分析解讀不會花大篇幅介紹patentics的語義檢索使用,有對其感興趣的可以自己聯(lián)系對方數(shù)據(jù)庫。
布爾檢索就是利用布爾算符and、or、not構建檢索式進行的檢索(這里注意布爾算符和同在算符的區(qū)別,布爾算符是不包括同句、同段、鄰近算符的);語義檢索就是利用數(shù)據(jù)庫的語義檢索功能,直接輸入一定檢索要素進行的檢索,每個數(shù)據(jù)庫之間應當會有內(nèi)在邏輯的區(qū)別,我們使用者對自己手頭的數(shù)據(jù)庫有清晰認知即可。
布爾檢索與語義檢索各自有哪些優(yōu)缺點呢。在優(yōu)點上,作者認為:“布爾檢索優(yōu)在對具體技術特征的檢索,而語義檢索勝在對技術方案的整體覆蓋...[1]”而缺點即對應優(yōu)點。即布爾檢索在對技術方案的整體覆蓋方面不具有明顯優(yōu)勢,而語義檢索在對具體技術特征的檢索方面不具有明顯優(yōu)勢。
兩個檢索方式各自的內(nèi)在邏輯,作者已經(jīng)在文中說明了,我就從實際操作上,用我的理解來解讀一下兩個檢索方式的優(yōu)缺點。

1)布爾檢索
布爾檢索就是利用布爾算符and、or、not構建檢索式進行的檢索。布爾算符連接的是前后檢索要素,主要是關鍵詞和分類號,有時候也有時間范圍等其他要素。要素一般經(jīng)過對檢索對象技術方案的分析理解后選取,在選取到擴展組合,有一個過程,這個過程中,從開始到結尾,都是把各個要素作為獨立的部分看待的,在最后組合成檢索式時才成為一個形式上的整體。這在操作和目的上都體現(xiàn)了作者所說的“布爾檢索優(yōu)在對具體技術特征的檢索[1]”

在前文中也提到,布爾算符是不包括同句、同段、鄰近算符的,這幾個算符所能限定的前后要素關聯(lián)強度極其有限,他們不像同句、同段、鄰近算符那樣,可以限定前后要素在一個句、一個段中,或限定前后要素間隔幾個字詞。布爾算符能限定的前后要素,是出現(xiàn)在全文中即可,仔細理解起來就是毫無限定。在這樣的算符使用條件下,我們僅能通過構建檢索式來表達,“我想檢索的文獻有這些要素”,而不能表達,“我想檢索的文獻有這些要素且要素有一定位置關系”。位置關系通過前文中的同句、同段、鄰近算符的句、段或其他方式來體現(xiàn),這強調了要素間的關聯(lián)強度。有關聯(lián)強度的檢索式,能一定程度的具象化整體方案。拿我某篇淺讀(淺讀檢索--《“位置算符”在專利信息檢索中的應用》)的例子來說:


這在操作和可實現(xiàn)效果上體現(xiàn)了作者所表達的布爾檢索在對技術方案的整體覆蓋方面不具有明顯優(yōu)勢的意思。
2)語義檢索
語義檢索就拿patentics數(shù)據(jù)庫舉例,但是文中說了很長一段,有些復雜,我就簡單的概括一下,有概括不對的,噴就是了。

我的概括,語義檢索在數(shù)據(jù)庫的操作上是這樣:數(shù)據(jù)庫給每個專利文獻文字內(nèi)容拆分后,根據(jù)這些文字內(nèi)容在文中的位置和頻率等整了一系列向量值出來,而我們輸入語義檢索的內(nèi)容,也會被數(shù)據(jù)庫賦予一定向量值,兩個對比一下,然后按對比的相似度排序。因其在操作和內(nèi)在邏輯上考慮了要素在文中的位置和頻率,因此體現(xiàn)了作者所說的“語義檢索勝在對技術方案的整體覆蓋[1]”
看起來真不錯,那么語義檢索為何在對具體技術特征的檢索方面不具有明顯優(yōu)勢呢。我想了想,暫時沒想到更通俗易懂的表達,直接引用文中吧:“...在對其中的實詞信息完整獲取的同時,意味著對技術方案中的發(fā)明點和非發(fā)明點都進行了獲取,而將代表非發(fā)明點的詞匯納入檢索過程中會帶來噪音,例如在技術方案的撰寫內(nèi)容中,若某一非發(fā)明點的技術特征出現(xiàn)多次時,在語義檢索的詞頻統(tǒng)計過程中會對技術特征賦予較高權重,反而將真實發(fā)明點的權重降低,影響檢索效果。[1]”
在作者看來,布爾檢索與語義檢索各自的優(yōu)缺點相反,因此如果優(yōu)勢互補,如在語義檢索過程中增加布爾檢索的限定,即可結合雙方優(yōu)點以彌補雙方各自不足。這的確是個辦法,但我個人覺得有點問題。
文中的舉例,均是在語義檢索過程中發(fā)現(xiàn)了較為合適的、與技術方案關聯(lián)性強的關鍵詞后,在語義檢索的基礎上新增了布爾檢索。那么既然已經(jīng)找到了關聯(lián)性強的關鍵詞,是否可以直接考慮布爾檢索呢,就利用布爾檢索的優(yōu)勢?這里作者并沒有交代清楚。
文中舉例的做法實際上是很常見的檢索思路。通過語義檢索或相似檢索找到關聯(lián)性或相似性強的文件,再從中找到可選取并擴展的檢索要素,或加深了技術理解后調整檢索思路。他的特殊性在于,后續(xù)的調整是利用了語義檢索的二次檢索功能。因此說是聯(lián)合運用策略,實際上可以說,是在強化以語義檢索為主的檢索策略。
如果非要說聯(lián)合運用,也可以以布爾檢索為主,輔助語義檢索,即將語義檢索過程中發(fā)現(xiàn)的有用的信息利用起來,用于構建完善的布爾檢索式。如果是這樣的聯(lián)合運用策略,那么語義檢索就是發(fā)現(xiàn)信息源的手段,而布爾檢索是后續(xù)的信息利用。
想的遠一些,如果不結合布爾檢索及語義檢索,是否可以通過其他方式來優(yōu)化單一檢索策略呢。我簡單闡述一下自己的習慣檢索方式。

1)單一布爾檢索優(yōu)化
這里不會太嚴謹,說是單一布爾檢索優(yōu)化,我實際上是引用同在算符來優(yōu)化。前文中我已經(jīng)闡述同在算符的優(yōu)勢,就是可以限定前后要素在一個句、一個段中,或限定前后要素間隔幾個字詞,并以此強調要素間的關聯(lián)強度,而有關聯(lián)強度的檢索式,能一定程度的具象化整體方案。加入同在算符以優(yōu)化的前提是做好目標文件的假設,這也在我某篇淺讀(淺讀檢索--《“位置算符”在專利信息檢索中的應用》)中有所解釋,感興趣的可以點擊鏈接細讀。
2)單一語義檢索優(yōu)化
前文中提到語義檢索的問題:“...若某一非發(fā)明點的技術特征出現(xiàn)多次時,在語義檢索的詞頻統(tǒng)計過程中會對技術特征賦予較高權重,反而將真實發(fā)明點的權重降低...[1]”這一方面可以反向利用其邏輯,控制輸入內(nèi)容的詞頻,另一方面控制輸入內(nèi)容的表達,具體的說可以控制輸入要素的表達準確度,及輸入要素間的位置遠近。
舉個例子,我們經(jīng)常會拿相似文件中部分內(nèi)容進行語義檢索,那么當我們想要用于語義檢索的內(nèi)容有不合適的模糊部分,我們可以修改并將其替換為準確度更高的表達,去掉不必要的可能增加噪音的部分。

參考文獻:

[1]胡瑩瑩,陳勇.論布爾檢索與語義檢索的聯(lián)合運用策略[J].中國發(fā)明與專利,2019,(16):161-166

黑娃

許利民,思博論壇ID“黑娃”

1)景毅檢索分析團隊負責人、思博論壇版主及檢索講師;

2)知識產(chǎn)權師、檢索分析師;

3)擅長無效檢索、侵權檢索、穩(wěn)定性檢索、公眾意見檢索、查新檢索,有豐富的涉訴無效檢索經(jīng)驗,已經(jīng)手包括化工機械、醫(yī)療器械、電商產(chǎn)品、注塑機械等在內(nèi)的許多領域專利檢索;

4)有對企業(yè)、代理機構及高校的專利檢索培訓經(jīng)驗

圖片


淺讀檢索--《論布爾檢索與語義檢索的聯(lián)合運用策略》的評論 (共 條)

分享到微博請遵守國家法律
台东市| 宝丰县| 吴旗县| 清苑县| 光泽县| 辽阳市| 凯里市| 东乡族自治县| 诸暨市| 绥滨县| 岢岚县| 麻城市| 资阳市| 大名县| 嘉兴市| 荃湾区| 梁平县| 洛扎县| 龙陵县| 孟村| 西乌珠穆沁旗| 满城县| 营口市| 淮阳县| 贡觉县| 谢通门县| 普格县| 泰顺县| 余姚市| 遵义市| 上思县| 德化县| 崇左市| 和龙市| 宁蒗| 蓬溪县| 长治市| 永平县| 沧州市| 南阳市| 芷江|