【上集】向量數據庫技術鑒賞

不同事物(抽象或者具象)都會在高維特征空間中對應著一個坐標點,可搜索相似的向量(視頻推薦,根據文本相似可以在智能問答中找到相似問題提供參考)。
詞匯向量化很常見(詞向量),而chatGBT出現產生思考: 對話內容向量化用當前對話搜索到歷史中相似的對話,將記憶提示給模型會提高效果。
向量數據庫: 查詢過程具有一定模糊性,搜索的是相似向量(不像數據表那么精確)。
搜索相似向量——最近鄰問題——最近鄰搜索算法
暴力搜索: 依次比較
現實情況是其他任何方法都不能保證不出現遺漏(除了暴力)——故被稱為近似最近鄰算法
聚類: 找出和查詢向量最近的那個聚類中心(不能保證不出現遺漏)
哈希: 計算哈希值需要發(fā)生碰撞 碰到一起就是相似


生成過程 隨機超平面 妙


有可能真的不在一起了(a和d),所以需要分段

標簽: