中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

關(guān)于搜索引擎的技術(shù)和理念

2019-03-05    來(lái)源:搜索引擎研究院

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

本文先引用幾句話:

1.“確解用戶之意,切返用戶之需。”

2.“門戶網(wǎng)站都想著是怎樣省錢,而不是怎樣花錢來(lái)買技術(shù)。”

3.“搜索引擎不是人人都能做的領(lǐng)域,進(jìn)入的門檻比較高。”

4.“只是優(yōu)秀還不夠,最好的方式是將一件事情做到極致。”(google十大真理)

5.“做搜索引擎需要專注” “對(duì)于一項(xiàng)排到第四的業(yè)務(wù),門戶很難做到專注。”

6.“用戶無(wú)法描述道他要找什么,除非讓他看到想找的東西。”

7. “所謂楔形,其實(shí)就是個(gè)倒三角,倒三角的尖端部分代表搜索技術(shù),中部是基于技術(shù)的產(chǎn)品應(yīng)用平臺(tái),最上端是對(duì)整個(gè)搜索引擎用戶人群文化的認(rèn)識(shí)和理解,以及現(xiàn)代公司競(jìng)爭(zhēng)最關(guān)鍵也最捉摸不定的所謂品牌。” “楔形”蘊(yùn)涵的另一個(gè)意義是:楔子要打到墻里,尖端是否銳利很重要,但楔子的破壞性有多強(qiáng),究竟能在墻面擠壓出多大的空間,其中端、后端的沉穩(wěn)與厚重才是關(guān)鍵。

搜索引擎的技術(shù)和理念都是需要時(shí)間和經(jīng)驗(yàn)的積累

更是需要長(zhǎng)期不斷的完善進(jìn)步的,絕對(duì)不要認(rèn)為可以一蹴而就,要達(dá)到一個(gè)相對(duì)成熟領(lǐng)先的搜索引擎從開始到領(lǐng)先的周期一般需要是四年。著急不得。原因是因?yàn)樗阉饕嫣珡?fù)雜,而且“用戶無(wú)法描述他要找什么,除非讓他看到想找的東西。” 一切都需要摸索,嘗試,問(wèn)題需要一個(gè)一個(gè)解決,用戶的需要得一點(diǎn)點(diǎn)的挖掘。

搜索引擎是一個(gè)產(chǎn)品,給用戶提供服務(wù)的產(chǎn)品

需要長(zhǎng)期的不斷的改進(jìn)升級(jí)調(diào)整才能持續(xù)不斷的提用戶體驗(yàn),需要滿足用戶不斷增長(zhǎng)并且變化的需求、需要不斷適應(yīng)網(wǎng)絡(luò)的變化。這是因?yàn)榫W(wǎng)絡(luò)環(huán)境是不斷變化的、網(wǎng)民的需求也是不斷變化的。千萬(wàn)不要把搜索當(dāng)成項(xiàng)目來(lái)做,做完了撂那讓用戶去用那你肯定沒戲。在搜索引擎領(lǐng)域是講體驗(yàn)的、新的引擎如果用戶體驗(yàn)一旦整體上有領(lǐng)先一年以上的差距并且持續(xù)2年,那前期的領(lǐng)先者的優(yōu)勢(shì)就蕩然無(wú)存,因?yàn)樗阉饕娴挠脩艮D(zhuǎn)移成本相對(duì)而言是比較低的而且口碑是最佳的傳播方式。如果一個(gè)搜索引擎不能持續(xù)不斷的技術(shù)創(chuàng)新理念創(chuàng)新,那對(duì)于這個(gè)搜索引擎來(lái)說(shuō)就等于死亡。我們一般形容搜索引擎的領(lǐng)先是以時(shí)間計(jì)算的。比如:中搜離百度整體差距×年,百度離google的整體差距×年,……只要你能在用戶體驗(yàn)上保持一年的領(lǐng)先優(yōu)勢(shì)持續(xù)2年,不需要炒作,一切紛至沓來(lái)。在用戶體驗(yàn)面前,任何的炒作都顯得很渺小。

作垂直搜索引擎,麻雀雖小,但是五臟俱全。

無(wú)論理念文化、產(chǎn)品管理、應(yīng)用、技術(shù)都和搜索引擎的楔形理論沒有什么區(qū)別。所以要做好一垂直搜索必須解決這幾個(gè)方面。

楔形的尖:垂直搜索技術(shù)。

垂直搜索技術(shù)主要分為兩個(gè)層次:模板級(jí)和網(wǎng)頁(yè)庫(kù)級(jí)。

模板級(jí)是針對(duì)網(wǎng)頁(yè)進(jìn)行模板設(shè)定或者自動(dòng)生成模板的方式抽取數(shù)據(jù),對(duì)網(wǎng)頁(yè)的采集也是針對(duì)性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強(qiáng),缺點(diǎn)是后期維護(hù)成本高,信息源和信息量小。網(wǎng)頁(yè)庫(kù)級(jí)就是在信息源數(shù)量上、數(shù)據(jù)容量上檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁(yè)庫(kù)搜索引擎級(jí)別的要求,和模板方式最大的區(qū)別是對(duì)具體網(wǎng)頁(yè)不依賴,可針對(duì)任意正常的網(wǎng)頁(yè)進(jìn)信息采集信息抽取……。這就導(dǎo)致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當(dāng)然模板方式和網(wǎng)頁(yè)庫(kù)級(jí)的方式不是對(duì)立的,這兩者對(duì)于垂直搜索引擎來(lái)說(shuō)是相互補(bǔ)充的,因?yàn)榧夹g(shù)只是手段,目的是切反用戶之需。本文談及的技術(shù)主要是指網(wǎng)頁(yè)庫(kù)級(jí)別垂直搜索引擎技術(shù)。

搜索引擎的確是一項(xiàng)對(duì)技術(shù)要求比較高的應(yīng)用,幾年前相關(guān)的人才也比較少,F(xiàn)在搜索技術(shù)人才多了,相關(guān)的技術(shù)和技術(shù)的應(yīng)用得相對(duì)以前而言更加成熟,但是競(jìng)爭(zhēng)也更加激烈了。

垂直搜索大致需要以下技術(shù):

1. 信息采集技術(shù)

2. 網(wǎng)頁(yè)信息抽取技術(shù)

3. 信息的處理技術(shù),包括:重復(fù)識(shí)別、重復(fù)識(shí)別、聚類、比較、分析、語(yǔ)料分析等

4. 語(yǔ)意相關(guān)性分析

5. 分詞

6. 索引

信息采集技術(shù),垂直搜索引擎spider和網(wǎng)頁(yè)庫(kù)的spider相比應(yīng)該是更加專業(yè),可定制化。可定向性的采集和垂直搜索范圍相關(guān)的網(wǎng)頁(yè)忽略不相關(guān)的網(wǎng)頁(yè)和不必要的網(wǎng)頁(yè),選擇內(nèi)容相關(guān)的以及適合做進(jìn)一步處理的網(wǎng)頁(yè)深度優(yōu)先采集、對(duì)頁(yè)面有選擇的調(diào)整更新頻率……,采集可通過(guò)人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析url方式共同進(jìn)行。

標(biāo)簽: Google IP URL 百度 比較 必須 變化 采集 炒作 垂直搜索 垂直搜索引擎 調(diào)整 方面 分析 服務(wù) 改進(jìn) 更新   關(guān)鍵 管理 級(jí)別 技術(shù)  

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)站優(yōu)化設(shè)計(jì)的三個(gè)具體表現(xiàn)

下一篇:如何提高“相關(guān)搜索”實(shí)驗(yàn)