最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

由無法查看粉絲列表想到的搜索引擎原理

2020-03-15 19:23 作者:不妙脆角  | 我要投稿

????今天想看看粉絲列表最前面的人是誰,發(fā)現(xiàn)不行。

哭哭

震驚之余,問了下客服,被告知說是只能查看前50頁。

? ? 雖然有些遺憾,但由此聯(lián)想到另一個(gè)關(guān)于搜索的問題。

?? 不知道大家有沒有思考過這樣一個(gè)問題:我們使用搜索引擎搜索關(guān)鍵詞的時(shí)候,為什么能在半秒內(nèi)搜出整個(gè)互聯(lián)網(wǎng)的相關(guān)信息呢?搜索Bilibili,為什么一瞬間就能找到143,000,000條結(jié)果?



????難道是谷歌服務(wù)器在一瞬間把世界上所有的網(wǎng)頁都匹配了一下文字嗎?為了滿足你的私利,竟要在短短半秒內(nèi)找遍上千億網(wǎng)頁?


????想到這兒,我不禁感嘆百度真是垃圾現(xiàn)代科學(xué)真厲害。但顯然,稍加思考就會(huì)發(fā)現(xiàn),翻書式的正向查找是不現(xiàn)實(shí)的。就算谷歌整個(gè)公司的服務(wù)器能滿足你一個(gè)人,那全球幾十億人同時(shí)使用搜索引擎,就是一百個(gè)谷歌服務(wù)器它也不夠用啊。

? ?那么搜索引擎是怎么實(shí)現(xiàn)的呢?實(shí)際上它用的不是正向查找,而是字典式的逆向存儲(chǔ),我不存網(wǎng)頁本身,我存單詞!

????我不存每個(gè)網(wǎng)頁的每一行都有什么詞,而是存某個(gè)單詞在哪個(gè)文章的第幾行第幾個(gè)出現(xiàn)了。如圖一所示。我們把每個(gè)網(wǎng)頁出現(xiàn)過什么字都找出來,把它們的網(wǎng)頁編號(hào)、位置都加入對(duì)應(yīng)文字的列表即可。

????這樣的話,好處是顯而易見的:

????①當(dāng)你輸入關(guān)鍵詞時(shí),我只需要把這個(gè)單詞對(duì)應(yīng)的文章的列表返回給你,而不需要去正向查找;不管你搜什么單詞,我返回結(jié)果的時(shí)間都是差不多的,都只是把這個(gè)單詞對(duì)應(yīng)的列表給你而已,無非是列表長(zhǎng)短的區(qū)別。?

????②網(wǎng)頁是無限的,而單詞是有限的;我沒辦法把所有網(wǎng)頁的原始信息都存下來,卻可以窮舉字典里兩萬個(gè)單詞,這兩萬個(gè)單詞的列表是可以維護(hù)的,只要把哪個(gè)網(wǎng)頁的哪個(gè)位置有這個(gè)單詞加在列表里即可。

????因此,當(dāng)你搜索關(guān)鍵詞的時(shí)候,返回的就是這個(gè)關(guān)鍵詞對(duì)應(yīng)的存儲(chǔ)網(wǎng)頁的列表

????當(dāng)你搜索多個(gè)關(guān)鍵詞的時(shí)候,只需要對(duì)這兩個(gè)關(guān)鍵詞的兩個(gè)列表做一個(gè)與運(yùn)算,把同時(shí)含有這兩個(gè)關(guān)鍵詞的網(wǎng)頁篩選出來即可,在時(shí)間復(fù)雜度上很低。如果要是正向查找做這個(gè)事情可就慘了:先遍歷所有網(wǎng)頁,再找出同時(shí)有這兩個(gè)單詞的網(wǎng)頁。

????列表的順序,就是返回結(jié)果的順序,可以根據(jù)大量用戶的點(diǎn)擊習(xí)慣和單個(gè)用戶的個(gè)性化特質(zhì)來不斷地修改,給不同的人呈現(xiàn)不同的搜索結(jié)果。這很方便,也很危險(xiǎn)。一個(gè)是信息繭房效應(yīng),一個(gè)是根據(jù)多維數(shù)據(jù)收集對(duì)你的用戶畫像刻畫而對(duì)你的惡意定向推送。

? ?

所以,保護(hù)好自己的信息,盡量少地填寫個(gè)人資料。


由無法查看粉絲列表想到的搜索引擎原理的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
黑龙江省| 普定县| 宽甸| 金昌市| 勐海县| 泸州市| 益阳市| 景德镇市| 安吉县| 焉耆| 定安县| 泌阳县| 长春市| 西乌| 文昌市| 布尔津县| 澄迈县| 海淀区| 临沧市| 仙居县| 永德县| 碌曲县| 新干县| 澄江县| 突泉县| 忻城县| 棋牌| 高唐县| 海原县| 安庆市| 南溪县| 北川| 丹阳市| 全州县| 观塘区| 西乌珠穆沁旗| 拉萨市| SHOW| 松潘县| 邢台市| 乌兰浩特市|