最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

谷歌:公布專利短語相似性數(shù)據(jù)集

2023-03-27 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站?機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺詢問哦

譯者|劉曉雯

單位|東北大學(xué)自然語言處理實驗室

前言

專利文件通常使用法律和高度技術(shù)性的語言,并且使用上下文相關(guān)的術(shù)語,這些術(shù)語的含義可能與口語用法有很大不同,甚至在不同的文件之間也十分不同。使用傳統(tǒng)的專利搜索方法(例如關(guān)鍵字搜索)搜索超過一億個專利文檔語料庫的過程可能很繁瑣,并且由于使用的語言廣泛且不標(biāo)準(zhǔn),會導(dǎo)致許多結(jié)果丟失。例如,“足球”可以描述為“球形娛樂裝置”、“充氣運(yùn)動球”或“球類游戲用球”。此外,一些專利文檔中使用的語言可能會使術(shù)語變得混淆,因此更強(qiáng)大的自然語言處理(NLP)和語義相似性理解可以讓每個人都有機(jī)會進(jìn)行徹底搜索。

由于使用了法律和技術(shù)術(shù)語,專利領(lǐng)域(以及更通用的技術(shù)文獻(xiàn),如科學(xué)出版物)對NLP建模提出了獨特的挑戰(zhàn)。雖然有多種常用的通用語義文本相似性(STS)基準(zhǔn)數(shù)據(jù)集(例如STS-B、SICK、MRPC、PIT),但據(jù)我們所知,目前還沒有專注于專利和科學(xué)出版物中技術(shù)概念的數(shù)據(jù)集(與有些相關(guān)的BioASQ挑戰(zhàn)包含一個生物醫(yī)學(xué)問答任務(wù))。此外,隨著專利庫規(guī)模的持續(xù)增長(全球每年發(fā)布數(shù)百萬新專利),有必要為該領(lǐng)域開發(fā)更有用的NLP模型。

今天,我們宣布發(fā)布了專利短語相似度數(shù)據(jù)集,這是一個新的人類評級上下文短語到短語的語義匹配數(shù)據(jù)集,以及相關(guān)的論文在SIGIR PatentSemTech研討會上提交,該研討會側(cè)重于專利的技術(shù)術(shù)語。專利短語相似性數(shù)據(jù)集包含約50000個分級短語對,每個短語對都有一個聯(lián)合專利分類(CPC)的類作為上下文。除了通常包含在其他基準(zhǔn)數(shù)據(jù)集中的相似性分?jǐn)?shù)外,我們還包括類似于WordNet的粒度分級類,例如同義詞、反義詞、上義詞、下義詞、全名、縮寫詞和領(lǐng)域相關(guān)。該數(shù)據(jù)集(根據(jù)知識共享署名4.0國際許可證發(fā)布)被Kaggle和USPTO用作美國專利短語匹配競賽的基準(zhǔn)數(shù)據(jù)集,以更多關(guān)注于機(jī)器學(xué)習(xí)模型在技術(shù)文本上的性能。初步結(jié)果表明,在此新數(shù)據(jù)集上進(jìn)行微調(diào)的模型性能大大優(yōu)于未進(jìn)行微調(diào)的常規(guī)預(yù)訓(xùn)練模型。

專利短語相似性數(shù)據(jù)集

為了更好地訓(xùn)練下一代最先進(jìn)的模型,我們創(chuàng)建了專利短語相似性數(shù)據(jù)集,其中包括許多示例來解決以下問題:(1)短語消除歧義,(2)對抗性關(guān)鍵字匹配,以及(3)硬否定關(guān)鍵字(即不相關(guān)但從其他模型獲得較高相似性分?jǐn)?shù)的關(guān)鍵字)。一些關(guān)鍵字和短語可以有多種含義(例如,短語“mouse”可能指動物或計算機(jī)輸入設(shè)備),因此我們通過在每對短語中包含CPC類來消除短語的歧義。此外,許多NLP模型(例如,單詞袋模型)對包含匹配關(guān)鍵字但在其他方面不相關(guān)的短語的數(shù)據(jù)處理效果不佳(對手關(guān)鍵字,例如“容器部分”→ “廚房容器”、“偏移表”→ “表扇”)。專利短語相似性數(shù)據(jù)集旨在包含許多通過對抗性關(guān)鍵字匹配而不相關(guān)的匹配關(guān)鍵字的示例,從而使NLP模型能夠提高其性能。

專利短語相似性數(shù)據(jù)集中的每個條目包含兩個短語,錨和目標(biāo),上下文CPC類,評級類和相似性分?jǐn)?shù)。數(shù)據(jù)集包含48548個條目和973個唯一錨定,分為訓(xùn)練集(75%)、驗證集(5%)和測試集(20%)。拆分?jǐn)?shù)據(jù)時,具有相同錨定的所有條目都將保留在同一集合中。共有106個不同上下文的CPC類,并且該訓(xùn)練集包含所有的上下文CPC類。

數(shù)據(jù)集的小樣本,包含錨定短語和目標(biāo)短語、上下文CPC類(B08:清潔,C10:石油、天然氣、燃料、潤滑油,A22:屠宰,加工肉類/家禽/魚類)、評級類和相似性分?jǐn)?shù)

生成數(shù)據(jù)集

為了生成專利短語相似性數(shù)據(jù),我們首先處理谷歌專利語料庫中約1.4億個專利文檔,并自動提取重要的英語短語,這些短語通常是名詞短語(例如,“緊固件”、“提升組件”)和功能短語(例如,“食品加工”、“油墨印刷”)。接下來,我們過濾并保留出現(xiàn)在至少100個專利中的短語,并從中隨機(jī)抽取1000個短語,我們稱之為錨定短語。對于每個錨定短語,我們可以找到所有匹配的專利以及這些專利的所有CPC類別。然后,我們隨機(jī)抽取四個匹配的CPC類,它們成為特定錨短語的上下文CPC類。

我們使用兩種不同的方法預(yù)生成目標(biāo)短語:(1)部分匹配和(2)掩碼語言模型(MLM)。對于部分匹配,我們從整個語料庫中隨機(jī)選擇與錨定短語部分匹配的短語(例如,“消減”→ “降噪”、“材料成型”→ “成型材料”)。對于MLM,我們從包含給定錨定短語的專利中選擇句子,屏蔽它們,并使用Patent-BERT模型預(yù)測文本掩碼部分的候選。然后,清洗所有短語,包括小寫處理,刪除標(biāo)點符號和某些非索引詞(例如,“and”、“or”、“said”),并發(fā)送給專家評分員審查。每個短語對會由兩名技術(shù)領(lǐng)域熟練的評分員單獨評分。每個評分員還給出具有不同評分的新目標(biāo)短語。具體來說,他們被要求給出一些與原始錨和/或一些高相似目標(biāo)部分匹配的低相似性和無關(guān)目標(biāo)。最后,評分員開會討論他們的評分,并得出最終評分。

數(shù)據(jù)集評估

為了評估其性能,在美國專利短語到短語匹配Kaggle競賽中使用了專利短語相似性數(shù)據(jù)集。比賽非常受歡迎,吸引了約2000名來自世界各地的選手。得分最高的團(tuán)隊們成功使用了多種方法,包括BERT變體的集成模型和prompting(更多詳細(xì)信息,請參閱完整討論)。下表顯示了競賽的最佳結(jié)果,以及我們論文中的幾個現(xiàn)成基線。Pearson相關(guān)度量用于測量預(yù)測分?jǐn)?shù)和真實分?jǐn)?shù)之間的線性相關(guān)性,這對于下游模型的目標(biāo)是有用的度量,因此它們可以區(qū)分不同的相似性評級。

本文中的基線可以被視為zero-shot,因為它們使用現(xiàn)成的模型,而且沒有在新數(shù)據(jù)集上進(jìn)一步微調(diào)(我們使用這些模型分別嵌入錨定短語和目標(biāo)短語,并計算它們之間的余弦相似性)。Kaggle競賽結(jié)果表明,通過使用我們的訓(xùn)練數(shù)據(jù),與現(xiàn)有的NLP模型相比,可以取得顯著的改進(jìn)。我們還通過將單個評分員的分?jǐn)?shù)與兩個評分員的綜合分?jǐn)?shù)進(jìn)行比較來評估人類在這項任務(wù)中的表現(xiàn)。結(jié)果表明,即使對人類專家來說,這也不是一項特別容易的任務(wù)。

沒有微調(diào)(zero-shot)的常用模型的性能,作為Kaggle競賽的一部分,在專利短語相似性數(shù)據(jù)集上微調(diào)的模型,以及單人表現(xiàn)。

結(jié)論和未來工作

我們提出了專利短語相似性數(shù)據(jù)集,該數(shù)據(jù)集被用作美國專利短語到短語匹配競賽的基準(zhǔn)數(shù)據(jù)集,并證明通過使用我們的訓(xùn)練數(shù)據(jù),可以實現(xiàn)與現(xiàn)有NLP模型相比的顯著改進(jìn)。

其他具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)基準(zhǔn)可以從專利語料庫中生成,專利數(shù)據(jù)已進(jìn)入許多當(dāng)今研究最多的模型當(dāng)中。例如,用于訓(xùn)練T5的C4文本數(shù)據(jù)集包含許多專利文件。BigBird和LongT5,模型也通過BIGPATENT數(shù)據(jù)集使用專利。全文數(shù)據(jù)的可用性、廣度和開放使用條款(見谷歌專利公共數(shù)據(jù)集)使專利成為研究社區(qū)的獨特資源。未來任務(wù)的可能性包括大規(guī)模多標(biāo)簽分類、摘要生成、信息檢索、圖文相似性、引文圖預(yù)測和翻譯。有關(guān)更多詳細(xì)信息,請參閱論文。


原文鏈接:
https://ai.googleblog.com/2022/08/announcing-patent-phrase-similarity.html


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號或網(wǎng)站)

筆芯~

往期精彩文章


谷歌:公布專利短語相似性數(shù)據(jù)集的評論 (共 條)

分享到微博請遵守國家法律
南平市| 繁昌县| 遂溪县| 昌平区| 高密市| 奉化市| 长白| 桦南县| 古蔺县| 乌兰察布市| 孝义市| 常山县| 崇义县| 芜湖县| 晋中市| 霞浦县| 彭阳县| 沾化县| 吴江市| 西安市| 塔河县| 萨迦县| 遂宁市| 柳江县| 柳州市| 长武县| 贵溪市| 汽车| 涿州市| 玉环县| 无为县| 左权县| 湘阴县| 星座| 辛集市| 屯留县| 那曲县| 双峰县| 乡宁县| 保定市| 伽师县|