最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

向量數(shù)據(jù)庫是什么,使用場景是什么?

2023-07-14 12:14 作者:哆啦A夢_編程大冒險  | 我要投稿

向量數(shù)據(jù)庫是什么,使用場景是什么? 向量的可以通過一個名叫嵌入embedding的過程,把各種非結(jié)構(gòu)化數(shù)據(jù)表示出來,相當(dāng)于多維壓縮到低維,把特征向量抽象成一串串?dāng)?shù)字,讓AI大模型看得懂,而且都能用這些數(shù)值去做訓(xùn)練和推理。在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)里,向量通常是一組數(shù)字。它們組成了一個多維的數(shù)值空間,向量的每個維度代表該空間的一個不同的特征或?qū)傩浴? 例如圖像中不同像素點的顏色值,或是文本中每個詞的出現(xiàn)頻率等。通過定義不同的特征和屬性,就可以把原始數(shù)據(jù)表示成多個維度的向量。這個表示方式有個很大的優(yōu)點,就是類似的內(nèi)容轉(zhuǎn)換成向量之后他們都會離得比較近。這樣就可以用余弦相似性(通過測量兩個向量的夾角的余弦值來度量他們之間的相似性。)、歐式距離(多維空間中兩個點之間的絕對距離。)這些方法來向量化向量的相似性。這樣就特別方便做推薦算法,因為你看了一個視頻之后,系統(tǒng)直接去找離這個視頻向量最近的另外一個向量就可以了。 那些搜同款、找類似圖片等等,其實也是差不多的原理,通過對向量進(jìn)行數(shù)學(xué)運算,就可以實現(xiàn)各種機(jī)器學(xué)習(xí)算法和數(shù)據(jù)分析技術(shù)。例如聚類、分類、回歸等等,這些都是計算機(jī)最擅長的,相當(dāng)于把那些對視頻圖片文字的操作,轉(zhuǎn)換成了數(shù)學(xué)運算和操作。有啥好處呢?當(dāng)然就是簡單、快、通用性強(qiáng)。理解了向量,向量數(shù)據(jù)庫就更好理解了,就是專門用來存儲和管理向量數(shù)據(jù)的……庫(專用于存儲和管理向量數(shù)據(jù))。能對向量數(shù)據(jù)進(jìn)行高效的增刪改查。 對于AI大模型來說向量數(shù)據(jù)庫到底有什么作用呢?我總結(jié)了三點,分別是私域知識、本地存儲、長期記憶。私域知識是指可以把向量數(shù)據(jù)庫作為大模型的外掛知識庫。即使大模型沒學(xué)過這些知識也沒關(guān)系。直接沖向量數(shù)據(jù)庫里去檢索相應(yīng)地內(nèi)容就可以了。這種方法不需要重新訓(xùn)練,比常見的大模型微調(diào)地方法成本更低、速度更快。也能通過更新數(shù)據(jù)庫保證AI大模型知識的實時更新。本地存儲就是把數(shù)據(jù)存在本地,而不需要喂給大模型訓(xùn)練,特別是如果你有很多敏感地數(shù)據(jù)和信息。不想讓大模型學(xué)到,就可以通過向量數(shù)據(jù)庫完成。這也能從根本上協(xié)助解決大模型隱私泄露的問題。那么長期記憶呢是相比大模型的短期記憶來說的。大模型都有個上下文窗口,窗口大小由Token數(shù)量決定,它只能記住這個窗口中間的東西。有了向量數(shù)據(jù)庫就可以保存所有的聊天記錄,特別適合作為聊天機(jī)器人,面向多個用戶使用的時候,就可以把每個用戶的聊天內(nèi)容都存在向量數(shù)據(jù)庫里進(jìn)行查詢檢索,不會丟失上下文信息。 總之呢,向量數(shù)據(jù)庫補(bǔ)齊了很多AI大模型的短版,天然適合大語言模型的應(yīng)用場景。這個也是為什么人工智能爆發(fā)之后,也立刻帶飛了向量數(shù)據(jù)庫的原因。

向量數(shù)據(jù)庫是什么,使用場景是什么?的評論 (共 條)

分享到微博請遵守國家法律
滕州市| 长宁区| 白山市| 开封县| 漠河县| 文成县| 苏尼特右旗| 甘德县| 烟台市| 登封市| 新巴尔虎左旗| 平泉县| 顺昌县| 江城| 微山县| 海淀区| 江华| 深水埗区| 文化| 襄垣县| 睢宁县| 新郑市| 喀喇沁旗| 抚顺市| 仁怀市| 普定县| 海口市| 彭水| 剑河县| 大渡口区| 来凤县| 溆浦县| 东乡族自治县| 秭归县| 翁源县| 乡城县| 金阳县| 灵武市| 麦盖提县| 龙游县| 岢岚县|