【下集】向量數(shù)據(jù)庫技術(shù)鑒賞

- 向量的差代表關(guān)系,差相近代表關(guān)系相近,可以用于推薦和尋找近似的東西
- 歸類近似的算法
- 聚類算法:隨機得到4個點,按距離把點分為4類,計算類的質(zhì)心,不斷迭代,直到收斂
- 哈希算法:隨機給定超平面,將點分為兩類,多次劃分之后每個點會得到一段二進制數(shù),把二進制分段,每段代表一個桶,相同的段放到一個桶里面
- 減少內(nèi)存開銷:每一類點在碼本中查詢他們的質(zhì)心,再量化為占用更小空間的數(shù)
- 維度災難:維度越高,點的分布就更加稀疏,就需要更多的質(zhì)心才能保證精確性,質(zhì)心越多導致碼本指數(shù)增大,反過來總體占用內(nèi)存又變大了,128維向量可能需要2的64次方個聚類中心
- 積量化:128維向量可以拆成8個16維向量,分別進行聚類,分別得到8個質(zhì)心,在這個過程中從8個人碼本可以看出來,碼本的占用空間是線性增大
- 隨機入口搜索向量(點)
- Facebook兩個人之間的關(guān)聯(lián)為3.57個人
- 建圖的方法:德勞內(nèi)三角剖分法
- 每個點都有直接連接的節(jié)點
- 距離低于閾值的點是連接的
- 前兩條的前提下連線最少
- 導航小世界:可能可以做到先粗快后慢細查到需要向量
- 分層導航小世界
- 從頂部進入就能可控保證先粗快后慢細
- 這樣復雜的圖結(jié)構(gòu)占用空間很大
標簽: