大火的向量數(shù)據(jù)庫與Patentics的R算符
隨著人工智能的大火越燒越旺,最近市場上也好,宣傳中也罷,大家可能越來越多的看到了一個新名詞:“向量數(shù)據(jù)庫”。不僅僅是很多新興創(chuàng)業(yè)公司借助這個概念在猛炒作自己的AI能力,更是眾多巨頭大廠也在加入戰(zhàn)局,儼然一片藍海。但是對于不太懂人工智能的老百姓們,包括咱們廣大知識產(chǎn)權(quán)界的朋友們,可能真的不太明白什么是向量數(shù)據(jù)庫,這東西具體怎么樣,有啥用,為什么會有人賣乃至有人買,咱們今天就給大家科普一下。其實最好的科普就是借助一個現(xiàn)實中大家都熟悉的形象,由具象到抽象,一個橋梁搭起來。那么我們的講解例子就是Patentics的R算符。R算符,大家天天用,常常用,萬事不決,R/一下,這個已經(jīng)成了廣大檢索者們的口頭禪,而且也成了某種意義上語義檢索的代名詞。但是只有熟練者才真正懂得,Patentics的R算符可不是簡單的計算前400,Patentics的R算符就是ranking也就是排序的意思,它排序的是整個專利文獻庫,你只要找準一個基準目標,比如CN1234567這篇文獻,一個R/CN1234567,本質(zhì)上系統(tǒng)排序了全部專利文獻和你這篇待排序的文獻,按照相關度從高到低排到底。

有些朋友們可能覺得我怎么每次就看見400篇,那是因為我們覺得您可能最關鍵的也就是前400,但是如果您需要看更多,那么記住下面的命令:ctop/數(shù)字,具體比如:R/CN1234567 and ctop/1000; R/CN1234567 and ctop/20000

是的,ctop/后面寫什么數(shù)字就是排到多少位的意思,您盡管寫,只要您覺得有意思有用,寫一個億我們也是給您反饋回來。
說到這里請各位仔細想想是否其它的專利檢索數(shù)據(jù)庫的智能檢索或者語義檢索也有這個功能模塊呢?!即是否它們可以無限排序呢?是否它們是鎖死在400篇、500篇或者800篇呢?!
這就回應了我們今天的主題,Patentics特有的R算符的背后就是向量數(shù)據(jù)庫的支撐與存在!所謂的向量數(shù)據(jù)庫呢,其實在一個浩瀚的文字資料里,訓練結(jié)束后你可以選擇將指定的文獻都賦予一個指定的向量,那么正常情況下,模型的擁有者當然非常容易做到這件事情。但是如果你不是模型的擁有者,僅僅是使用者,那么就不是那么回事了,你可以去調(diào)用模型的特定功能,比如說鍵入一篇文獻,利用模型的近似算法給你反饋一個近似值集合。
看著眼熟吧,是的,這個就是絕大部分數(shù)據(jù)庫,專利數(shù)據(jù)庫的現(xiàn)實,本質(zhì)上它們是沒有自己的語義模型或者大語言模型,無法把所有的文獻轉(zhuǎn)化為一個N維空間中的數(shù)字向量值,因此具體的表現(xiàn)就是當用戶請求計算的時候,它們只能是調(diào)用某個商業(yè)的模型進行計算反饋,那么結(jié)果就是一個有限集合,比如500,比如800.
這里大家也立刻看出來了,那么真正有實力的任何人工智能玩家還是具體落地應用領域的玩家,一定是希望自己有模型,畢竟有模型就意味著有向量,有向量就意味著可以具體任意操控向量的計算,這個在后期任務上有明顯的優(yōu)勢。
那么延伸解讀,那么為什么現(xiàn)在滿大街的“向量數(shù)據(jù)庫”呢?那是因為擁有一個大型語言模型在當前一個是熱門,二是很多人搞不懂,三是有硬門檻。對于三這個門檻來說其實就是錢錢錢!沒有一定的硬件基礎現(xiàn)在無法獲得一個合理的大模型效果,那么退而求其次,就是向量數(shù)據(jù)庫了!
這個其實在以前是不常見的商業(yè)模式,本質(zhì)上也都是反饋你一個你期望的運算集合就可以了,其實很類似你和GPT對話,它也是反饋你一個最優(yōu)解,可以這么理解。但是現(xiàn)在作為商業(yè)上B端消費者可能也是不滿足這個層面了,希望自己能控制更多。那么向量數(shù)據(jù)庫就油然而生了!
小結(jié)一下:
1、向量數(shù)據(jù)庫就是利用大模型將指定文獻進行數(shù)字向量化,而且當前商業(yè)上可以客戶化定制,優(yōu)點很多,比如不用你自己練了,比如后期調(diào)用其實比較節(jié)省算力;
2、對于一個具體的應用,比如咱們專利檢索,完全向量化當然好處多多,就類似Patentics的R算符,它由于是真正意義上的全體排列,所以其可以和其他任意算符如布爾算符B/A等進行混合運算而不造成漏檢;
3、向量數(shù)據(jù)庫確實是好,是個商業(yè)進步,但是真的好還是要有自己的模型,否則說白了沒人根據(jù)你的具體應用去優(yōu)化,就算做也是要錢的,而且沒有免費的買賣,調(diào)用也是要錢的;
4、向量數(shù)據(jù)庫適合真的沒能力但是有需求的土豪朋友們,像我們這樣的科技咖,那當然是一定自己做咯;
5、透露一點點,我們想說文獻檢索不需要那么復雜,幾十億的模型也許就夠了,但是也沒有那么簡單腦殘,幾個開源的羊駝模型我們也試驗過了,效果只能說是呵呵,對比我們自己的還是不夠看,但是我們有思路有辦法,其實仔細看我們文章的朋友們就應該也想的明白。