【LangChain 速遞】MultiVector Retriever
原推:https://twitter.com/zhanghaili0610/status/1697250386548035862?s=20

LangChain 多向量檢索器的核心流程:
1. 創(chuàng)建多向量檢索器對(duì)象,傳入向量存儲(chǔ)、文檔存儲(chǔ)和文檔 ID?鍵名。
2. 對(duì)每個(gè)文檔:
生成唯一的文檔 ID;
(可選)將文檔拆分成更小的塊,將塊存儲(chǔ)到向量存儲(chǔ)中,并將文檔 ID 作為元數(shù)據(jù);
(可選)為文檔創(chuàng)建摘要向量,存儲(chǔ)到向量存儲(chǔ)中,同樣帶上文檔 ID 作為元數(shù)據(jù);
(可選)為文檔生成假設(shè)的用戶查詢,存儲(chǔ)為向量帶上文檔 ID;
將文檔內(nèi)容本身存儲(chǔ)到文檔存儲(chǔ)中,以文檔 ID 為鍵。
3. 多向量檢索器擁有文檔的所有向量、文檔內(nèi)容和映射文檔 ID 的方式,可以進(jìn)行檢索,匹配查詢向量與各種文檔向量的相似度,并通過(guò)元數(shù)據(jù)中的文檔 ID 找到對(duì)應(yīng)文檔。
4. 用戶傳入查詢,多向量檢索器可以檢索出相似文檔。
總體上,多向量檢索器允許我們?yōu)槊總€(gè)文檔存儲(chǔ)各種附加信息的向量,從中進(jìn)行更全面的相似度檢索和匹配。我們可以自定義為文檔生成的額外向量,提升檢索效果。


標(biāo)簽: