中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

透過分詞看谷歌和百度的收錄排名究竟差在哪里

2019-03-08    來源:文隨書林,blog.sina.com.cn/xuhongtao2009

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一直以來,谷歌在國內(nèi)的搜索市場上占據(jù)不了有利的位置,搜索市場份額總是居于30%左右,和百度的競爭也有很多年了,可是,始終也沒有占據(jù)上風(fēng),相信業(yè)內(nèi)的專家早已對這個問題研究過很多了,我的話自然沒什么權(quán)威性,不過,我還是想以自己小小的博客為例,來看看谷歌到底是怎么輸給百度的。

眾所周知,谷歌是世界搜索巨頭,百度只是在國內(nèi)享有盛譽,因此,他們的側(cè)重點是有所不同的,這源于外文和中文本質(zhì)上的區(qū)別。英語也好,德語也罷,他們的文字書寫都是一種字母字符語言,而漢語文字相比起來則復(fù)雜的多。搜索引擎收錄網(wǎng)頁的基本原理就是把網(wǎng)頁的文字內(nèi)容抓取,錄取到數(shù)據(jù)庫中,然后建立相應(yīng)索引,當人們搜索時,就相當于查詢數(shù)據(jù)庫中的內(nèi)容,然后按照索引將內(nèi)容按照符合條件程度排序,輸出。當然,具體的過程是很復(fù)雜的,我也沒有做過很深入的了解研究,在此,我就想以一點為核心來研究一個問題,就是分詞問題。

從搜索引擎的原理看出,建立索引的的前面一步工作就是分詞。

什么是分詞呢,舉個例子:文隨書林 ,這個詞可以有這些分法

1.文-隨書-林;2.文隨-書林;3.文-隨-書-林;……

當搜索蜘蛛抓取到這個詞的時候,要跟自身的分詞庫對照,自動找到最符合的分詞分法,然后按照詞組建立索引。 英文的分詞很簡單,他是以單詞分詞,每個句子中的詞語要以空格分開,而中文呢,遠遠沒有那沒簡單了。到這里,就可以看出谷歌輸在百度的一個方面了?磦例子:分別在百度和谷歌搜索“jialiu”,這是結(jié)果

這樣看就很直觀了。谷歌輸在百度哪里?就是輸在分詞上!

試想,一個中文分詞數(shù)據(jù)庫不完善,中文分詞技術(shù)落后的數(shù)據(jù)庫,在國內(nèi)的中文搜索,能得到廣大用戶的青睞嗎?中文博大精深,中文分詞不當,導(dǎo)致的只能是搜索者找不到想要的內(nèi)容,久而久之,這樣的搜索變成了沒有意義的搜索,所以,可想而知,谷歌是該好好更新更新他的中文分詞數(shù)據(jù)庫了,要不,就在分詞這一塊,就怎么也不好跟百度競爭的!

國人最常用的搜索引擎是百度,所以做國內(nèi)的網(wǎng)站,大多數(shù)的seoer都在研究百度的SEO,因為百度的分詞太厲害了,這就導(dǎo)致在百度做一個關(guān)鍵詞的排名難度非常大,即使是該關(guān)鍵詞的拼音,也難以做到第一,百度總會先把拼音翻譯成中文再去搜索。相比之下,在分詞稍微落后的谷歌上做關(guān)鍵詞的排名就簡單多了,中文長尾關(guān)鍵詞是最難讓谷歌分詞分好的,這就完全可以利用谷歌的這個弱勢,關(guān)鍵詞在百度上做不上去了,就換種思路好好做谷歌,這也是很多網(wǎng)站的關(guān)鍵詞在百度排名不佳,谷歌排名卻很好的原因了。

所以,研究谷歌和百度的分詞,是很有利于seoer做關(guān)鍵詞的SEO的。這里講個方法看怎么來研究谷歌和百度的分詞。

搜索引擎的基本分詞可以通過快照看出來。比如,在谷歌隨便輸入一個詞搜索,“甲型流感”,看這張圖,

很明顯,谷歌的分詞是“甲-型-流感”。如果要做這個關(guān)鍵詞的排名,百度強大的分詞技術(shù)肯定不會把這個詞拆開吧,而谷歌竟然把這個完整的詞給拆開了。所以,現(xiàn)在做這兩個關(guān)鍵詞的思路應(yīng)該是這樣的:

1.百度:此關(guān)鍵詞極其難做,原因在于這是并且只是一個完整的詞,排在前面的全是網(wǎng)易、搜狐、新浪、騰訊等大站,想要做上去非常不容易。要做的,只能是這一個關(guān)鍵詞的堆積。

2.谷歌:谷歌的分詞是把這個完整的詞分開了,這樣就形成了兩個詞,而這兩個詞,加上不分開的一個詞,相當于百度就是有三個關(guān)鍵詞可以做。甲,型流感,甲型流感,哈哈,思路就出來了,有三個關(guān)鍵詞可以做,即使是關(guān)鍵詞的堆積,也可以堆積三個詞,也就是說關(guān)鍵詞的密度是“甲型流感”一個詞的三倍,而谷歌不但不會認為你是作弊,相反會對你很友好喔!

當然,這只是一個思路,更多的百度和谷歌有趣的分詞還有待細心的發(fā)掘,畢竟,這是利用了谷歌相對百度的一個劣勢。

現(xiàn)在再通過我的博客文隨書林看看谷歌和百度在收錄方面的些不同吧。

我的博客開通于2009年6月份,在一月之內(nèi),博名排名在百度和谷歌始終是第一位,(當然和我博客名字在網(wǎng)絡(luò)上的唯一性是有關(guān)的,這里暫且不論)。博客最后更新日期是8月,然后被我荒廢了很長時間,近幾天才開始更新。在這期間,百度排名始終第一,谷歌變動了很多次,這里暫且不討論這期間的問題。然后,從我前幾天開始更新開始看,百度收錄良好,也很及時,可是,谷歌蜘蛛總是聽不到我的呼喚,我的博客更新了,也不來瞧瞧(有足夠外鏈的前提下),博文不收錄了,博客排名都不知哪兒去了。

然后,我具體分析分析了下,看下面兩張圖:

這是一篇谷歌不收錄我博文的時候我寫的一篇文章,本料谷歌很快就會更新,收錄,沒想到時隔今日,谷歌都沒有收錄,這還讓我花點心思好好研究了下。

外鏈充足而且都有最新的,權(quán)重也不比我低,所以外鏈一定不是主要原因。那么原因出在哪里了呢?難道是進了沙盒,想想不可能,沙盒期早就已經(jīng)過了。我的博文都是原創(chuàng),按理谷歌應(yīng)該很買賬,這次不買帳了,到底是什么原因呢?

從谷歌上沒有分析出原因,百度倒是給了我靈感!看下面這張圖:

注意看這張圖,我是同一時間搜索的,這張圖和上面那張的不同之處在于他顯示了所有的搜索結(jié)果,而這次的搜索結(jié)果卻顯示我的原創(chuàng)首發(fā)博客的博文排在了第二位,這讓人對百度的算法更好奇了些,糾其原因,可能是因為我的博客權(quán)重較低的原因吧,畢竟我的博客訪問量和文章收錄數(shù)和排在第一位的那個靠采集的垃圾站還是有些差距的。以此引申到谷歌不收錄的原因,估計谷歌看我博客這么久沒有更新,把我的博客編進了垃圾站的行列了吧,造成權(quán)重較低,以至于現(xiàn)在收錄這么難。

不過,我對與谷歌spider的聰明是從不懷疑的,相信他很快就會識別出來,偶的小博客還是很有價值滴。

文章均屬本人原創(chuàng),轉(zhuǎn)載請注明 原文地址:http://blog.sina.com.cn/s/blog_50ad291f0100gpge.html

標簽: SEO 分詞 文隨書林 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:寫點隨筆關(guān)于建站的心得——新手建站必備

下一篇:論壇被百度收錄經(jīng)驗之談