大模型時代的勝出者:專利審查員
這并不是一篇水文而是一篇基于科學的嚴肅的論斷,首先所謂的勝利者更應該被描述成幸存者,其次一定要加專利審查員而不是什么其他的審查員,因為大模型的能力對不同的工種影響大不同。
我們經(jīng)過對大模型的仔細研究和深度開發(fā)利用,當前可以非常明確類似律師、代理人等涉及思維鏈邏輯的文字工作者們而言,剩下的時間都是殘值時間,出局的節(jié)奏取決于算力的便宜程度以及政府政策是否會激進推動人類在相關行業(yè)的絕對主導意義,本質上,當前的科技已經(jīng)解決了所謂律師、代理人等相關的業(yè)務模式了。
看到這里可能很多人都瘋了,感覺專利審查員哪里比律師們還牛了,沒看出來啊,憑什么啊?!其實我們具體把專利審查員的工作細分一下:檢索+評述。評述部分事實上也一并如同律師與代理人,這些工作完全可以由大語言模型來勝任,但是檢索還真不行!
什么叫行,什么叫不行。如果把我們的工作目標用文字描述給大語言模型,模型可以根據(jù)指令直接完成目標,那么就叫行。目前看來文字類撰寫工作均可以完美實現(xiàn),在通用類大模型上有瑕疵的也可以通過微調來完善實現(xiàn)。
但是檢索,專利檢索,當前并不存在一鍵檢索,即一個命令就得到最佳檢索結果,而且經(jīng)過我們認真的研究大語言模型的能力后,非常確認這一點,即真的沒有所謂的一鍵獲得檢索結果,而且不是卡算力,也不是卡微調,更不是做個embedding、整個向量庫就能解決的問題,而是本質上不行!
大模型的深度神經(jīng)網(wǎng)絡和驚人數(shù)量的參數(shù)量真正幫助到的是理解了語言本身,而我們聚集的看專利檢索這個具體的任務,其本質上是在找相似,而且是在將近兩億文獻中尋找兩兩相似,大模型即便把這些專利統(tǒng)統(tǒng)進行訓練,那么后期要完成這個具體的任務也是需要靠建立向量并比較向量之間的余弦值而不是說訓練過所有的專利了,然后就準確的記憶并能夠比較兩兩了,這個從模型基礎上本身不存在這樣的先決條件。
那么進行向量建立和比較向量值其實在大模型這里本身屬于“陽光底下沒有新鮮事兒”,無法是利用傳統(tǒng)的向量工具進行向量建立,比如bm25,bert,或者用大模型自己的能力來建立一下,但是此時所謂大模型自己的能力也就是基于transformer架構。注意,此時構建模型,無論你使用那種方式,本質上是根據(jù)一個向量構建的數(shù)學規(guī)則把一段話或短如一個詞或長如一整篇專利申請,來建立一個對應的向量值。在這個過程中,根本不存在所謂的大模型深層神經(jīng)網(wǎng)絡的作用!
也就是直白的講,大模型能力確實強,但是和你具體建立一個向量的模型,兩者之間沒有關系。那么很多需要后面跟著理解分析的語言任務,其實是后續(xù)利用大模型本身的優(yōu)勢去完成了。但是專利檢索本身就是一對一的向量比較這么簡單粗暴,大模型也沒有任何更好的辦法去比較它們的兩兩相似性了。
所以一切的問題又都回到了本源!即如果當前對于語義向量的編碼效果(特指后期用于向量比較任務)沒有什么本質提升,則依然檢索任務效果沒有提升!
這也是包括我們在內的很多業(yè)內人士們經(jīng)過嘗試后的真實結論。
說到這里,我們想表達三個想法:
第一、盡管專利檢索看起來非常枯燥,似乎就是一個力氣活兒,但是當前的生成式人工智能所解決的問題卻真的有可能暫時放過“力氣活兒”;
第二、解決這個檢索問題,即有朝一日可以一鍵檢索到最佳對比文件,我們認為其本質上是一個數(shù)學問題,更類似蒙特卡洛梳妝搜索那樣的數(shù)學問題,終極解決方案是什么,在哪里,我們也需要探索,但是我們在探索的路上肯定更有底氣!
第三、專利審查員,乃至廣大專利檢索工作者,相信我們的產品就是這個時代的科技底色,采用我們的產品成為這個時代的科技王者!