中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺析搜索引擎原理:文件匹配與初始子集的篩選

2019-03-15    來源:seostudy.org

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

文件匹配與初始子集的選擇時搜索引擎在排名的過程中非常重要的兩個方面,今天就這兩個方面給大家做一些基礎(chǔ)性的總結(jié)。雖然這些看似和我們沒有關(guān)系,但是大家多了解一些基礎(chǔ)性的原理,對以后網(wǎng)站的建設(shè)和優(yōu)化都有一定的指導(dǎo)意義,當(dāng)然,這些只是自己的一些總結(jié),如果有不對的地方,還希望大家做指正。

當(dāng)搜索引擎經(jīng)過預(yù)處理的前幾個階段之后,搜索引擎得到的是以詞為單位的關(guān)鍵詞集合。在這個之前,搜索引擎首先得到的是一個文件對應(yīng)多個關(guān)鍵詞,但這樣的查詢效率太低也不現(xiàn)實,所以搜索引擎會把這些文件進(jìn)行反向映射,得到的是一個關(guān)鍵詞對應(yīng)多個文件。這樣在用戶搜索某個關(guān)鍵詞的時候,就在這個關(guān)鍵詞對應(yīng)的所有文件中進(jìn)行計算和匹配,并返回給用戶最佳的搜索結(jié)果。了解了這個大體的過程,下邊就開始分享今天的兩個主要方面。

首先是文件匹配:搜索引擎的蜘蛛是無時無刻的都在爬行和抓取,另外不斷對抓取的數(shù)據(jù)進(jìn)行整理歸納以及存儲。這些過程并不是用戶在搜索的時候進(jìn)行的,而是在搜索之前以后預(yù)處理好的,真正當(dāng)用戶搜索某個關(guān)鍵詞時,搜索引擎只是在自己的數(shù)據(jù)庫中進(jìn)行查找,而不是實時的對互聯(lián)網(wǎng)上所有的網(wǎng)站進(jìn)行查找。為了表達(dá)的更加清楚,我以一個簡易的圖來給大家說明:

這個圖就是典型的倒排索引快速匹配文件表,當(dāng)用戶搜“關(guān)鍵詞1 關(guān)鍵詞16”,那么搜索引擎就會在這兩個詞對應(yīng)的所有文件中進(jìn)行簡單的計算和匹配,找到既包含關(guān)鍵詞1也包含關(guān)鍵詞16的所有頁面。

其次是初始子集篩選:子集就是為了更加快速的滿足用戶的需要,搜索引擎需要從所有的相關(guān)頁面中進(jìn)行選擇,只計算權(quán)重稍高的頁面返回給用戶,這個過程就是常說的初始子集的篩選。大家可以試想,當(dāng)我們搜索某個關(guān)鍵詞時,往往包含這個關(guān)鍵詞的頁面數(shù)量是巨大的,甚至幾十萬、上百萬。如果搜索引擎從這么大的數(shù)據(jù)中進(jìn)行匹配的話時間顯然更長,為了更好的滿足用戶的需求,實際中搜索引擎只會選擇哪些權(quán)重高的頁面去匹配,但是什么樣的頁面才是權(quán)重高,才符合搜索引擎的條件呢?這就包含了多方面的內(nèi)容和頁面相關(guān)元素的影響,既有外部因素,也會有內(nèi)部因素。這個問題不是本文總結(jié)的一個重點,以后的文章會慢慢和大家分享。

平時我們搜索時不可能一一產(chǎn)看所有的搜索結(jié)果,一般情況下只會去查看前幾頁甚至只是前幾名,雖然搜索引擎返回的相關(guān)結(jié)果有很多,但這些結(jié)果仍然是互聯(lián)網(wǎng)上符合條件眾多網(wǎng)頁中的一小部分,所以,用戶的搜索習(xí)慣在發(fā)生變化,搜索引擎也面臨著很大的挑戰(zhàn),如何能更好的幫助用戶搜索到需要的信息,永遠(yuǎn)是搜索引擎在努力的一件事。

到這里,通過文件匹配以及初始子集的篩選給大家分享了一些搜索引擎的基本原理,當(dāng)然,在技術(shù)上往往要涉及的東西還有很多,考慮的各方面也更周全、更復(fù)雜,這些只是在大體的原理上給大家做了總結(jié)。通過了解搜索引擎的各個方面,對于我們網(wǎng)站的建設(shè)以及搜索引擎優(yōu)化都能起到一定的指導(dǎo)作用。

好了,本文就到這里,以后會繼續(xù)和大家總結(jié)分享。本文來自:北京SEO,網(wǎng)址:http://www.seostudy.org/,轉(zhuǎn)載請保留版權(quán),謝謝!

標(biāo)簽: 搜索引擎原理 文件匹配 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:建站一年多談網(wǎng)站SEO優(yōu)化流程步驟

下一篇:站長們搶鹽之余 你搶外鏈了嗎?