中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何讓搜索引擎搜索結(jié)果更精準(zhǔn)?

2019-03-22    來源:阿狗小明

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

搜索引擎是指根據(jù)一定的策略、運用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。當(dāng)用戶在搜索框輸入一個關(guān)鍵字后,我們應(yīng)該給用戶返回什么內(nèi)容呢?

一、搜索引擎原理和用戶使用習(xí)慣

1.1 搜索引擎是一個可供所有人檢索的數(shù)據(jù)庫

圖1:搜索引擎簡單的人機(jī)交互過程

其中:

1)被檢索的數(shù)據(jù)庫即搜索引擎所抓取的網(wǎng)頁數(shù)據(jù)。

通過蜘蛛爬取到原始數(shù)據(jù)后,搜索引擎會對其進(jìn)行處理后才入庫。即搜索引擎的搜索算法,比如大家熟知名字( 當(dāng)然是名字啦,內(nèi)容原理是最高機(jī)密 的Google的PageRank。

2)搜索引擎是高度簡化后的產(chǎn)品。

用戶需要做的即是輸入想要檢索的關(guān)鍵詞,確定,查看結(jié)果。這里有個需要說明的是,用戶連搜索條件都不需要輸入。而對搜索引擎來講,不僅要在海量數(shù)據(jù)中快速找到相關(guān)結(jié)果,還要揣測用戶的期望并提取正確的內(nèi)容給用戶,內(nèi)部的機(jī)制已經(jīng)不能用繁瑣來形容了。

這個難度就好比在大量圖書中快速準(zhǔn)確找出某一個未知問題的答案一樣。

圖2:剛拍攝的國家圖書館,使用了濾鏡。

1.2 搜索引擎數(shù)據(jù)處理過程

搜索引擎是一個超級復(fù)雜的系統(tǒng),內(nèi)部具體的處理規(guī)則和技術(shù)原理不可能是簡單的闡述清楚。我們通過產(chǎn)品的思維來理解一下這個過程即可。拿寫論文的例子分析即可,論文在成文之前材料的整理過程大致如下:

1)從網(wǎng)絡(luò)、圖書館、書籍雜志、講座等等收集大量原始資料

2)排除相關(guān)重復(fù)內(nèi)容

3)排除跟主題關(guān)聯(lián)性不大的內(nèi)容

4)根據(jù)主題、邏輯順序、優(yōu)先級等進(jìn)行人為的計算、分析、排版、處理等。這個過程是最為繁瑣和耗時的,使用的武器便是史上最牛逼的工具:人腦!!!

5)成文輸入結(jié)果

忍不住再重申一下:所有的產(chǎn)品其實都是在模仿人類的實際社會活動。。。明白這個對于產(chǎn)品經(jīng)理很重要哦。

搜索引擎數(shù)據(jù)處理流程基本類似(想要了解的可以自行搜索相關(guān)資料),唯一的也是搜索引擎想消除的區(qū)別 :

一個是有感情有邏輯的人腦在分析,一個是機(jī)器按照一定規(guī)則來分析。

所以,想要搜索結(jié)果更精準(zhǔn),那就讓它像人腦一樣分析輸入數(shù)據(jù)并輸入結(jié)果。

恩,我也覺得不怎么現(xiàn)實,但是可以想辦法讓他比較精準(zhǔn)。

二、獲取信息的方式

我們還是先從日常行為的來入手然后再推導(dǎo)產(chǎn)品的操作方式。

2.1 通常,我們從周圍環(huán)境如下獲取信息:

1、 已知獲取途徑和方法

如想獲知今天美元對人民幣的匯率抑或北京飛青島的機(jī)票價格和時刻表,因為途徑已知,此類信息只要按圖索驥即可。差別在于不同途徑的成本。匯率可通過網(wǎng)絡(luò)查詢、電話咨詢、銀行網(wǎng)點詢問等,顯然第一種方法更便捷。(的確是廢話)。

這些信息都是規(guī)則化,概念明確的。

2、了解核心關(guān)鍵需要整理的

如剛才提到的論文寫作,假設(shè)題目為弱關(guān)系社區(qū)設(shè)計,我們就需要去詢問什么弱關(guān)系,和強(qiáng)關(guān)系有什么區(qū)別,已有的設(shè)計案例是什么。

這些信息的獲取建立在人為分析的前提下。

2.2 提問方式

還是舉兩個例子。

1、 在形成完整的序言邏輯前,小孩子提問的方式是最簡單的關(guān)鍵詞,大人們要做的便是通過他的咿呀來理解孩子的需求。一般大人都能準(zhǔn)確預(yù)測,原因在于其非常了解孩子的習(xí)慣、行為、方式、特征 等。

2、有了完整的語言邏輯后,我們一般選擇直接提問:今天的匯率是什么?北京飛青島的票價多少,都是幾點的?人腦也完全可以處理這些問題。當(dāng)然,人是復(fù)雜的感情動物,好多東西還不能完全通過字面意思去理解。說一個不是很恰當(dāng)?shù)睦樱杭s會中,女孩提問你覺得現(xiàn)在的房價如何。字面意思是房價,潛在意思是你的購房能力如何。

2.3 搜索引擎該這么處理

假設(shè)搜索引擎具有跟我們一樣的大腦的話,那他處理問題的方式應(yīng)該是這樣的:

1、分析所查詢的問題是檢索關(guān)鍵詞還是提問

2、結(jié)果分為三種,

答案已知直接輸出結(jié)果;

途徑已知,輸入解決途徑;

提供最符合用戶預(yù)期的排序結(jié)果共用戶挑選

3、不同的情況下會出現(xiàn)相互組合。當(dāng)搜索引擎對關(guān)鍵詞理解越充分時,結(jié)果越準(zhǔn)確。

三、改進(jìn)方法和策略

再總結(jié)一下用戶的操作行為:

3.1 當(dāng)用戶輸入的為關(guān)鍵詞時:

1)已知用戶的特征,根據(jù)其特征對搜索結(jié)果進(jìn)行符合其本身的排序

2)未知用戶特征,則視為普通的查詢。提供結(jié)構(gòu)話的搜索結(jié)果,即具有相關(guān)性的提示,相關(guān)性越高,結(jié)果越靠前。

3.2 當(dāng)用戶進(jìn)行提問時:

1)分析提問的語義,簡單的語義輸出結(jié)果或途徑

2) 無法分析確切的語義,提供多個結(jié)果給用戶,同時根據(jù)用戶的反饋不斷調(diào)整結(jié)果。這也是用戶特征的一部分。

3.3 搜索結(jié)果出現(xiàn)交叉時,痛癢還是需要參考用戶的行為特征來對結(jié)果排序。

有幾個名詞,感興趣的可再去搜索一下:Baidu-框計算;Google-知識圖譜;Facebook-社交圖譜搜索;Siri-語義搜索;概率-馬爾可夫模型 。

說白了,就是

搜索引擎對用戶的搜索意圖越理解,資料庫越完備,輸出的結(jié)果越精準(zhǔn) 。

還是舉個例子來佐證一下:同樣一個問題,好朋友的解答一般比陌生人要好,因為好朋友更了解你提問的動機(jī),背景甚至期望得到的答案。

問題來了,計算機(jī)畢竟不是生物,他執(zhí)行的僅僅是規(guī)則。能做的便是收集你的一些行為和特征來推斷你的喜好:

1、個人信息:姓名、性別、籍貫、職業(yè)、行業(yè)、興趣愛好、使用偏好等。

2、個人行為:搜索記錄、瀏覽記錄、社交行為等

3、處理方法:聚類、分類、數(shù)據(jù)挖掘

恩,其實是一個推薦引擎。更多知識和操作方法可以看一下Ibm Developer的文章:探索推薦引擎的秘密。

標(biāo)簽: 搜索結(jié)果 搜索引擎 搜索引擎數(shù)據(jù)處理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:淺談SEO和網(wǎng)站安全的關(guān)系

下一篇:從網(wǎng)絡(luò)劇《大淘寶》中得到了SEO更深刻的理解