中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

透過(guò)分詞看谷歌和百度的收錄排名究竟差在哪里

2019-03-08    來(lái)源:文隨書(shū)林,blog.sina.com.cn/xuhongtao2009

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

一直以來(lái),谷歌在國(guó)內(nèi)的搜索市場(chǎng)上占據(jù)不了有利的位置,搜索市場(chǎng)份額總是居于30%左右,和百度的競(jìng)爭(zhēng)也有很多年了,可是,始終也沒(méi)有占據(jù)上風(fēng),相信業(yè)內(nèi)的專家早已對(duì)這個(gè)問(wèn)題研究過(guò)很多了,我的話自然沒(méi)什么權(quán)威性,不過(guò),我還是想以自己小小的博客為例,來(lái)看看谷歌到底是怎么輸給百度的。

眾所周知,谷歌是世界搜索巨頭,百度只是在國(guó)內(nèi)享有盛譽(yù),因此,他們的側(cè)重點(diǎn)是有所不同的,這源于外文和中文本質(zhì)上的區(qū)別。英語(yǔ)也好,德語(yǔ)也罷,他們的文字書(shū)寫都是一種字母字符語(yǔ)言,而漢語(yǔ)文字相比起來(lái)則復(fù)雜的多。搜索引擎收錄網(wǎng)頁(yè)的基本原理就是把網(wǎng)頁(yè)的文字內(nèi)容抓取,錄取到數(shù)據(jù)庫(kù)中,然后建立相應(yīng)索引,當(dāng)人們搜索時(shí),就相當(dāng)于查詢數(shù)據(jù)庫(kù)中的內(nèi)容,然后按照索引將內(nèi)容按照符合條件程度排序,輸出。當(dāng)然,具體的過(guò)程是很復(fù)雜的,我也沒(méi)有做過(guò)很深入的了解研究,在此,我就想以一點(diǎn)為核心來(lái)研究一個(gè)問(wèn)題,就是分詞問(wèn)題。

從搜索引擎的原理看出,建立索引的的前面一步工作就是分詞。

什么是分詞呢,舉個(gè)例子:文隨書(shū)林 ,這個(gè)詞可以有這些分法

1.文-隨書(shū)-林;2.文隨-書(shū)林;3.文-隨-書(shū)-林;……

當(dāng)搜索蜘蛛抓取到這個(gè)詞的時(shí)候,要跟自身的分詞庫(kù)對(duì)照,自動(dòng)找到最符合的分詞分法,然后按照詞組建立索引。 英文的分詞很簡(jiǎn)單,他是以單詞分詞,每個(gè)句子中的詞語(yǔ)要以空格分開(kāi),而中文呢,遠(yuǎn)遠(yuǎn)沒(méi)有那沒(méi)簡(jiǎn)單了。到這里,就可以看出谷歌輸在百度的一個(gè)方面了。看個(gè)例子:分別在百度和谷歌搜索“jialiu”,這是結(jié)果

這樣看就很直觀了。谷歌輸在百度哪里?就是輸在分詞上!

試想,一個(gè)中文分詞數(shù)據(jù)庫(kù)不完善,中文分詞技術(shù)落后的數(shù)據(jù)庫(kù),在國(guó)內(nèi)的中文搜索,能得到廣大用戶的青睞嗎?中文博大精深,中文分詞不當(dāng),導(dǎo)致的只能是搜索者找不到想要的內(nèi)容,久而久之,這樣的搜索變成了沒(méi)有意義的搜索,所以,可想而知,谷歌是該好好更新更新他的中文分詞數(shù)據(jù)庫(kù)了,要不,就在分詞這一塊,就怎么也不好跟百度競(jìng)爭(zhēng)的。

國(guó)人最常用的搜索引擎是百度,所以做國(guó)內(nèi)的網(wǎng)站,大多數(shù)的seoer都在研究百度的SEO,因?yàn)榘俣鹊姆衷~太厲害了,這就導(dǎo)致在百度做一個(gè)關(guān)鍵詞的排名難度非常大,即使是該關(guān)鍵詞的拼音,也難以做到第一,百度總會(huì)先把拼音翻譯成中文再去搜索。相比之下,在分詞稍微落后的谷歌上做關(guān)鍵詞的排名就簡(jiǎn)單多了,中文長(zhǎng)尾關(guān)鍵詞是最難讓谷歌分詞分好的,這就完全可以利用谷歌的這個(gè)弱勢(shì),關(guān)鍵詞在百度上做不上去了,就換種思路好好做谷歌,這也是很多網(wǎng)站的關(guān)鍵詞在百度排名不佳,谷歌排名卻很好的原因了。

所以,研究谷歌和百度的分詞,是很有利于seoer做關(guān)鍵詞的SEO的。這里講個(gè)方法看怎么來(lái)研究谷歌和百度的分詞。

搜索引擎的基本分詞可以通過(guò)快照看出來(lái)。比如,在谷歌隨便輸入一個(gè)詞搜索,“甲型流感”,看這張圖,

很明顯,谷歌的分詞是“甲-型-流感”。如果要做這個(gè)關(guān)鍵詞的排名,百度強(qiáng)大的分詞技術(shù)肯定不會(huì)把這個(gè)詞拆開(kāi)吧,而谷歌竟然把這個(gè)完整的詞給拆開(kāi)了。所以,現(xiàn)在做這兩個(gè)關(guān)鍵詞的思路應(yīng)該是這樣的:

1.百度:此關(guān)鍵詞極其難做,原因在于這是并且只是一個(gè)完整的詞,排在前面的全是網(wǎng)易、搜狐、新浪、騰訊等大站,想要做上去非常不容易。要做的,只能是這一個(gè)關(guān)鍵詞的堆積。

2.谷歌:谷歌的分詞是把這個(gè)完整的詞分開(kāi)了,這樣就形成了兩個(gè)詞,而這兩個(gè)詞,加上不分開(kāi)的一個(gè)詞,相當(dāng)于百度就是有三個(gè)關(guān)鍵詞可以做。甲,型流感,甲型流感,哈哈,思路就出來(lái)了,有三個(gè)關(guān)鍵詞可以做,即使是關(guān)鍵詞的堆積,也可以堆積三個(gè)詞,也就是說(shuō)關(guān)鍵詞的密度是“甲型流感”一個(gè)詞的三倍,而谷歌不但不會(huì)認(rèn)為你是作弊,相反會(huì)對(duì)你很友好喔!

當(dāng)然,這只是一個(gè)思路,更多的百度和谷歌有趣的分詞還有待細(xì)心的發(fā)掘,畢竟,這是利用了谷歌相對(duì)百度的一個(gè)劣勢(shì)。

現(xiàn)在再通過(guò)我的博客文隨書(shū)林看看谷歌和百度在收錄方面的些不同吧。

我的博客開(kāi)通于2009年6月份,在一月之內(nèi),博名排名在百度和谷歌始終是第一位,(當(dāng)然和我博客名字在網(wǎng)絡(luò)上的唯一性是有關(guān)的,這里暫且不論)。博客最后更新日期是8月,然后被我荒廢了很長(zhǎng)時(shí)間,近幾天才開(kāi)始更新。在這期間,百度排名始終第一,谷歌變動(dòng)了很多次,這里暫且不討論這期間的問(wèn)題。然后,從我前幾天開(kāi)始更新開(kāi)始看,百度收錄良好,也很及時(shí),可是,谷歌蜘蛛總是聽(tīng)不到我的呼喚,我的博客更新了,也不來(lái)瞧瞧(有足夠外鏈的前提下),博文不收錄了,博客排名都不知哪兒去了。

然后,我具體分析分析了下,看下面兩張圖:

這是一篇谷歌不收錄我博文的時(shí)候我寫的一篇文章,本料谷歌很快就會(huì)更新,收錄,沒(méi)想到時(shí)隔今日,谷歌都沒(méi)有收錄,這還讓我花點(diǎn)心思好好研究了下。

外鏈充足而且都有最新的,權(quán)重也不比我低,所以外鏈一定不是主要原因。那么原因出在哪里了呢?難道是進(jìn)了沙盒,想想不可能,沙盒期早就已經(jīng)過(guò)了。我的博文都是原創(chuàng),按理谷歌應(yīng)該很買賬,這次不買帳了,到底是什么原因呢?

從谷歌上沒(méi)有分析出原因,百度倒是給了我靈感!看下面這張圖:

注意看這張圖,我是同一時(shí)間搜索的,這張圖和上面那張的不同之處在于他顯示了所有的搜索結(jié)果,而這次的搜索結(jié)果卻顯示我的原創(chuàng)首發(fā)博客的博文排在了第二位,這讓人對(duì)百度的算法更好奇了些,糾其原因,可能是因?yàn)槲业牟┛蜋?quán)重較低的原因吧,畢竟我的博客訪問(wèn)量和文章收錄數(shù)和排在第一位的那個(gè)靠采集的垃圾站還是有些差距的。以此引申到谷歌不收錄的原因,估計(jì)谷歌看我博客這么久沒(méi)有更新,把我的博客編進(jìn)了垃圾站的行列了吧,造成權(quán)重較低,以至于現(xiàn)在收錄這么難。

不過(guò),我對(duì)與谷歌spider的聰明是從不懷疑的,相信他很快就會(huì)識(shí)別出來(lái),偶的小博客還是很有價(jià)值滴。

文章均屬本人原創(chuàng),轉(zhuǎn)載請(qǐng)注明 原文地址:http://blog.sina.com.cn/s/blog_50ad291f0100gpge.html

標(biāo)簽: SEO 分詞 文隨書(shū)林 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:寫點(diǎn)隨筆關(guān)于建站的心得——新手建站必備

下一篇:論壇被百度收錄經(jīng)驗(yàn)之談