【下集】向量數(shù)據(jù)庫(kù)技術(shù)鑒賞

問(wèn)題:除了搜索速度,還有內(nèi)存開(kāi)銷問(wèn)題
方法:降低向量本身大小
1.乘積向量——有損壓縮——蒙娜麗莎例子(圖片中每個(gè)像素點(diǎn)都被其所在分類質(zhì)心點(diǎn)所替代)——在一定程度保留原始信息——給質(zhì)心編碼單個(gè)編碼值存儲(chǔ)減少空間(把向量用質(zhì)心編碼表示就是量化)——碼本
蒙娜麗莎圖

單個(gè)編碼值存儲(chǔ)

存在問(wèn)題:
維度增加(數(shù)據(jù)稀疏)——非常大的聚類數(shù)——維度災(zāi)難——內(nèi)存超過(guò)了反而得不償失
進(jìn)一步解決:高維分成低維——拼接子向量——笛卡爾積


2.用戶更注重速度和質(zhì)量
6人理論小世界——導(dǎo)航小世界nsw

需要手動(dòng)建立圖結(jié)構(gòu)
保證以下性質(zhì):

需要這個(gè):德勞內(nèi)三角剖分法

但是這個(gè)建立的圖結(jié)構(gòu)搜索時(shí)候不一定很快速,所以nsw方法如下,妙在先粗快,后細(xì)慢

hnsw:分層的導(dǎo)航小世界
圖 搜索時(shí)候從最上層進(jìn)入,快速導(dǎo)航,逐步進(jìn)入下一層,比nsw更穩(wěn)定。缺點(diǎn)就是占用內(nèi)存太大


標(biāo)簽: