站長資訊平臺

透過分詞看谷歌和百度的收錄排名究竟差在哪里

2019-03-08 來源：文隨書林,blog.sina.com.cn/xuhongtao2009

一直以來，谷歌在國內(nèi)的搜索市場上占據(jù)不了有利的位置，搜索市場份額總是居于30%左右，和百度的競爭也有很多年了，可是，始終也沒有占據(jù)上風(fēng)，相信業(yè)內(nèi)的專家早已對這個問題研究過很多了，我的話自然沒什么權(quán)威性，不過，我還是想以自己小小的博客為例，來看看谷歌到底是怎么輸給百度的。

眾所周知，谷歌是世界搜索巨頭，百度只是在國內(nèi)享有盛譽，因此，他們的側(cè)重點是有所不同的，這源于外文和中文本質(zhì)上的區(qū)別。英語也好，德語也罷，他們的文字書寫都是一種字母字符語言，而漢語文字相比起來則復(fù)雜的多。搜索引擎收錄網(wǎng)頁的基本原理就是把網(wǎng)頁的文字內(nèi)容抓取，錄取到數(shù)據(jù)庫中，然后建立相應(yīng)索引，當人們搜索時，就相當于查詢數(shù)據(jù)庫中的內(nèi)容，然后按照索引將內(nèi)容按照符合條件程度排序，輸出。當然，具體的過程是很復(fù)雜的，我也沒有做過很深入的了解研究，在此，我就想以一點為核心來研究一個問題，就是分詞問題。

從搜索引擎的原理看出，建立索引的的前面一步工作就是分詞。

什么是分詞呢，舉個例子：文隨書林，這個詞可以有這些分法

1.文-隨書-林；2.文隨-書林；3.文-隨-書-林；……

當搜索蜘蛛抓取到這個詞的時候，要跟自身的分詞庫對照，自動找到最符合的分詞分法，然后按照詞組建立索引。英文的分詞很簡單，他是以單詞分詞，每個句子中的詞語要以空格分開，而中文呢，遠遠沒有那沒簡單了。到這里，就可以看出谷歌輸在百度的一個方面了�？磦€例子：分別在百度和谷歌搜索“jialiu”，這是結(jié)果

這樣看就很直觀了。谷歌輸在百度哪里？就是輸在分詞上！

試想，一個中文分詞數(shù)據(jù)庫不完善，中文分詞技術(shù)落后的數(shù)據(jù)庫，在國內(nèi)的中文搜索，能得到廣大用戶的青睞嗎？中文博大精深，中文分詞不當，導(dǎo)致的只能是搜索者找不到想要的內(nèi)容，久而久之，這樣的搜索變成了沒有意義的搜索，所以，可想而知，谷歌是該好好更新更新他的中文分詞數(shù)據(jù)庫了，要不，就在分詞這一塊，就怎么也不好跟百度競爭的��！

國人最常用的搜索引擎是百度，所以做國內(nèi)的網(wǎng)站，大多數(shù)的seoer都在研究百度的SEO，因為百度的分詞太厲害了，這就導(dǎo)致在百度做一個關(guān)鍵詞的排名難度非常大，即使是該關(guān)鍵詞的拼音，也難以做到第一，百度總會先把拼音翻譯成中文再去搜索。相比之下，在分詞稍微落后的谷歌上做關(guān)鍵詞的排名就簡單多了，中文長尾關(guān)鍵詞是最難讓谷歌分詞分好的，這就完全可以利用谷歌的這個弱勢，關(guān)鍵詞在百度上做不上去了，就換種思路好好做谷歌，這也是很多網(wǎng)站的關(guān)鍵詞在百度排名不佳，谷歌排名卻很好的原因了。

所以，研究谷歌和百度的分詞，是很有利于seoer做關(guān)鍵詞的SEO的。這里講個方法看怎么來研究谷歌和百度的分詞。

搜索引擎的基本分詞可以通過快照看出來。比如，在谷歌隨便輸入一個詞搜索，“甲型流感”，看這張圖，

很明顯，谷歌的分詞是“甲-型-流感”。如果要做這個關(guān)鍵詞的排名，百度強大的分詞技術(shù)肯定不會把這個詞拆開吧，而谷歌竟然把這個完整的詞給拆開了。所以，現(xiàn)在做這兩個關(guān)鍵詞的思路應(yīng)該是這樣的：

1.百度：此關(guān)鍵詞極其難做，原因在于這是并且只是一個完整的詞，排在前面的全是網(wǎng)易、搜狐、新浪、騰訊等大站，想要做上去非常不容易。要做的，只能是這一個關(guān)鍵詞的堆積。

2.谷歌：谷歌的分詞是把這個完整的詞分開了，這樣就形成了兩個詞，而這兩個詞，加上不分開的一個詞，相當于百度就是有三個關(guān)鍵詞可以做。甲，型流感，甲型流感，哈哈，思路就出來了，有三個關(guān)鍵詞可以做，即使是關(guān)鍵詞的堆積，也可以堆積三個詞，也就是說關(guān)鍵詞的密度是“甲型流感”一個詞的三倍，而谷歌不但不會認為你是作弊，相反會對你很友好喔！

當然，這只是一個思路，更多的百度和谷歌有趣的分詞還有待細心的發(fā)掘，畢竟，這是利用了谷歌相對百度的一個劣勢。

現(xiàn)在再通過我的博客文隨書林看看谷歌和百度在收錄方面的些不同吧。

我的博客開通于2009年6月份，在一月之內(nèi)，博名排名在百度和谷歌始終是第一位，（當然和我博客名字在網(wǎng)絡(luò)上的唯一性是有關(guān)的，這里暫且不論）。博客最后更新日期是8月，然后被我荒廢了很長時間，近幾天才開始更新。在這期間，百度排名始終第一，谷歌變動了很多次，這里暫且不討論這期間的問題。然后，從我前幾天開始更新開始看，百度收錄良好，也很及時，可是，谷歌蜘蛛總是聽不到我的呼喚，我的博客更新了，也不來瞧瞧（有足夠外鏈的前提下），博文不收錄了，博客排名都不知哪兒去了。

然后，我具體分析分析了下，看下面兩張圖：

這是一篇谷歌不收錄我博文的時候我寫的一篇文章，本料谷歌很快就會更新，收錄，沒想到時隔今日，谷歌都沒有收錄，這還讓我花點心思好好研究了下。

外鏈充足而且都有最新的，權(quán)重也不比我低，所以外鏈一定不是主要原因。那么原因出在哪里了呢？難道是進了沙盒，想想不可能，沙盒期早就已經(jīng)過了。我的博文都是原創(chuàng)，按理谷歌應(yīng)該很買賬，這次不買帳了，到底是什么原因呢？

從谷歌上沒有分析出原因，百度倒是給了我靈感！看下面這張圖：

注意看這張圖，我是同一時間搜索的，這張圖和上面那張的不同之處在于他顯示了所有的搜索結(jié)果，而這次的搜索結(jié)果卻顯示我的原創(chuàng)首發(fā)博客的博文排在了第二位，這讓人對百度的算法更好奇了些，糾其原因，可能是因為我的博客權(quán)重較低的原因吧，畢竟我的博客訪問量和文章收錄數(shù)和排在第一位的那個靠采集的垃圾站還是有些差距的。以此引申到谷歌不收錄的原因，估計谷歌看我博客這么久沒有更新，把我的博客編進了垃圾站的行列了吧，造成權(quán)重較低，以至于現(xiàn)在收錄這么難。

不過，我對與谷歌spider的聰明是從不懷疑的，相信他很快就會識別出來，偶的小博客還是很有價值滴。

文章均屬本人原創(chuàng)，轉(zhuǎn)載請注明原文地址：http://blog.sina.com.cn/s/blog_50ad291f0100gpge.html

標簽： SEO 分詞文隨書林

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:寫點隨筆關(guān)于建站的心得——新手建站必備

下一篇:論壇被百度收錄經(jīng)驗之談

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

透過分詞看谷歌和百度的收錄排名究竟差在哪里