中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

垂直搜索對(duì)信息更新的三個(gè)要求

2019-03-05    來(lái)源:搜索引擎研究院

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

垂直搜索對(duì)信息的更新有著特別的要求,根據(jù)這些特點(diǎn)可以從以下幾點(diǎn)考慮:

1.信息源的穩(wěn)定性(不能讓信息源網(wǎng)站感覺(jué)到spider的壓力)

2.抓取的成本問(wèn)題

3.對(duì)用戶(hù)體驗(yàn)改善程度。

根據(jù)以上幾點(diǎn)制定一種比較好的策略,要做到恰到好處。

策略上可以評(píng)估網(wǎng)站/網(wǎng)頁(yè)更新的系數(shù)、網(wǎng)站/網(wǎng)頁(yè)的重要系數(shù)、用戶(hù)點(diǎn)擊系數(shù)(或曝光系數(shù))、網(wǎng)站穩(wěn)定系數(shù)……,根據(jù)這些系數(shù)來(lái)確定對(duì)這些網(wǎng)站/網(wǎng)頁(yè)更新的頻率。再由于新信息和更新了的信息list頁(yè)面前面或者首頁(yè),所以對(duì)網(wǎng)頁(yè)進(jìn)行很好的分級(jí)可以以低成本很好的解決更新問(wèn)題,系數(shù)比較低的網(wǎng)頁(yè)一月update一次,稍微高點(diǎn)的一周update一次、中等的幾天到一天一次、高的幾小時(shí)到幾分鐘一次。類(lèi)似搜索引擎的大庫(kù)、周庫(kù)、日庫(kù),小時(shí)庫(kù)……

基于視覺(jué)網(wǎng)頁(yè)塊分析技術(shù),模擬IE瀏覽器的顯示方式,對(duì)網(wǎng)頁(yè)進(jìn)行解析。

根據(jù)人類(lèi)視覺(jué)原理,把網(wǎng)頁(yè)解析處理的結(jié)果,進(jìn)行分塊,再根據(jù)需要,對(duì)這些塊進(jìn)行處理,如:采集定向、介紹抽取和一些必要的內(nèi)容的抽取正文抽取……

結(jié)構(gòu)化信息抽取技術(shù),將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。

有兩種方式,簡(jiǎn)單的就是模板方式,另外就是對(duì)網(wǎng)頁(yè)不依賴(lài)web結(jié)構(gòu)化信息抽取方式,這兩種方式可以互取長(zhǎng)處,以最簡(jiǎn)單最有效的辦法滿(mǎn)足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對(duì)網(wǎng)頁(yè)信息結(jié)構(gòu)化抽取后再結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度的處理,提供專(zhuān)業(yè)的搜索服務(wù)。所以web結(jié)構(gòu)化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。其實(shí)web結(jié)構(gòu)化信息抽取在百度、google早已經(jīng)廣泛應(yīng)用了,如:MP3、圖片搜索、google的本地搜索就是從網(wǎng)頁(yè)庫(kù)抽取出企業(yè)信息,添加到其地圖搜索中的,google通過(guò)這種技術(shù)正在顛覆做內(nèi)容的方式。同樣的技術(shù)應(yīng)用還在qihoo、sogou購(gòu)物、shopping等各種應(yīng)用中體現(xiàn)。

簡(jiǎn)單的語(yǔ)法分析,簡(jiǎn)單的語(yǔ)法分析在搜索引擎中非常重要,可以通過(guò)簡(jiǎn)單的語(yǔ)法分析來(lái)改善數(shù)據(jù)的質(zhì)量,低成本的獲得某類(lèi)信息,改善排序,尋找需要的內(nèi)容……

信息處理技術(shù),信息處理包括的范圍比較廣

主要包括去重、聚類(lèi)、分析……,這根據(jù)需要相關(guān)的技術(shù)就非常多。

  數(shù)據(jù)挖掘,找出您的信息的關(guān)聯(lián)性對(duì)于垂直搜索來(lái)說(shuō)非常重要,有效,可以在這些相關(guān)性上為用戶(hù)提供更細(xì)致的服務(wù)。

分詞技術(shù),面向搜索的分詞技術(shù),建立和您的行業(yè)相關(guān)的詞庫(kù)。

注意這是面向搜索的分詞,不是面向識(shí)別和準(zhǔn)確的分詞。就這個(gè)工作安排十幾個(gè)人不停的維護(hù)也不會(huì)嫌多。

索引技術(shù),索引技術(shù)對(duì)于垂直搜索非常關(guān)鍵,一個(gè)網(wǎng)頁(yè)庫(kù)級(jí)的搜索引擎必須要支持分布索引、分層建庫(kù)、分布檢索、靈活的更新、靈活的權(quán)值調(diào)整、靈活的索引和靈活的升級(jí)擴(kuò)展、高可靠性穩(wěn)定性冗余性。還需要支持各種技術(shù)的擴(kuò)展,如偏移量計(jì)算等。

其它技術(shù),略。

垂直搜索引擎的技術(shù)評(píng)估應(yīng)從以下幾點(diǎn)來(lái)判斷

  1. 全面性

  2. 更新性

  3. 準(zhǔn)確性

  4. 功能性

標(biāo)簽: Google IP 安排 百度 本地搜索 比較 必須 標(biāo) 采集 策略 垂直搜索 垂直搜索引擎 點(diǎn)擊 調(diào)整 分詞技術(shù) 分析 服務(wù) 個(gè)人 更新 關(guān)鍵 技術(shù)  建立

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:競(jìng)爭(zhēng)弱搜索多的關(guān)鍵詞選擇法

下一篇:搜索優(yōu)化頂級(jí)策略 - Google第一頁(yè)脫穎而出