最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

10 分鐘打造文本搜索引擎,附詳細(xì)教程

2022-05-20 21:26 作者:Jina_AI  | 我要投稿

超越傳統(tǒng)基于關(guān)鍵詞的搜索,提高搜索相關(guān)性。

科普:什么是神經(jīng)搜索 (Neural Search)

神經(jīng)搜索 (Neural Search) 是指利用深度神經(jīng)網(wǎng)絡(luò),搜索圖像、視頻、文本等各種非結(jié)構(gòu)化數(shù)據(jù)。與傳統(tǒng)基于文本標(biāo)簽的搜索相比,神經(jīng)搜索更加全面和有針對(duì)性。

教程:快速創(chuàng)建文本搜索引擎

目的:創(chuàng)建一個(gè)文本數(shù)據(jù)的神經(jīng)搜索應(yīng)用。

原理:輸入查詢句子,與數(shù)據(jù)集中的句子進(jìn)行匹配并輸出匹配結(jié)果。

DocArray 參考文檔:

https://docarray.jina.ai/

數(shù)據(jù)集 (Pride & Prejudice e-book) 下載:

https://www.gutenberg.org/files/1342/1342-0.txt

安裝依賴

從 PyPI 安裝 DocArray,方法如下:

1. 通過(guò) Pip 安裝:?pip install docarray?

2. 通過(guò) conda 安裝:?conda install -c conda-forge docarray?

代碼詳解

第一步:從 URL 加載數(shù)據(jù)集,將其轉(zhuǎn)換為文本,并放入?Document?(Jina 中一個(gè)基礎(chǔ)的數(shù)據(jù)類型)。

from docarray import Document, DocumentArraydoc = Document(uri="https://www.gutenberg.org/files/1342/1342-0.txt").load_uri_to_text()

第二步:由于數(shù)據(jù)集 Pride & Prejudice e-book 是一系列長(zhǎng)句子,我們需要先將其進(jìn)行分詞,再放到?DocumentArray?中。

每重起一行,就用?‘\n’?來(lái)分割句子。最終這個(gè)句子將以?Document?的形式,存儲(chǔ)在?DocumentArray?中。

第三步:特征向量化(將特征轉(zhuǎn)換為向量索引)。這里的特征就是?DocumentArray?中每個(gè)?Document?的向量。

特征向量化的實(shí)現(xiàn)方法眾多,這里推薦使用特征哈希 (feature hashing) 方法,因?yàn)樗\(yùn)行更迅速、占用空間更少。

特征哈希的工作原理,是獲取特征并應(yīng)用一個(gè)哈希函數(shù),該函數(shù)可以對(duì)值 (value) 進(jìn)行散列,并將其作為索引返回。

DocArray 極大簡(jiǎn)化了這個(gè)過(guò)程:

# break large text into smaller chunksdocs = DocumentArray(Document(text = s.strip()) for s in doc.text.split('\n') if s.strip())
# apply feature hashing to embed the DocumentArraydocs.apply(lambda doc: doc.embed_feature_hashing())
# query sentence query = (Document(text="she entered the room").embed_feature_hashing().match(docs, limit=5, exclude_self=True, metric="jaccard", use_scipy=True))
# print the resultsprint(query.matches[:, ('text', 'scores__jaccard')])

第四步:獲取輸出。將查詢句子轉(zhuǎn)換為? Document?,并對(duì)其進(jìn)行向量化,然后與?DocumentArray?中?Document?的向量進(jìn)行匹配。

輸入《傲慢與偏見(jiàn)》中句子「she entered the room」,查詢結(jié)果如下:

以上就是創(chuàng)建文本搜索引擎的完整過(guò)程,查看 Colab 請(qǐng)?jiān)L問(wèn)鏈接:

https://colab.research.google.com/github/jina-ai/tutorial-notebooks/blob/main/neural_text_search.ipynb#scrollTo=4glBnUHBiAwp

期待你能用 Jina 全家桶產(chǎn)品,創(chuàng)建更多有意思的 demo~


參考資料:

https://docarray.jina.ai

https://github.com/jina-ai/docarray

https://docs.jina.ai

10 分鐘打造文本搜索引擎,附詳細(xì)教程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
介休市| 平罗县| 色达县| 静海县| 双峰县| 蛟河市| 宝鸡市| 江口县| 大同市| 大足县| 洪泽县| 潍坊市| 马边| 枞阳县| 中阳县| 德钦县| 阜新市| 攀枝花市| 大名县| 平远县| 赤壁市| 德清县| 临桂县| 民勤县| 石城县| 齐河县| 石棉县| 延边| 广德县| 清河县| 息烽县| 潼南县| 南充市| 太仓市| 开平市| 临湘市| 黄平县| 临澧县| 宁蒗| 沧州市| 石河子市|