網(wǎng)站的規(guī)范標(biāo)準(zhǔn)化建設(shè)以及robots協(xié)議詳解

2019-03-05 來源：中國站長站

一、遵循W3C規(guī)范

W3C是英文 World Wide Web Consortium 的縮寫，中文意思是W3C理事會(huì)或萬維網(wǎng)聯(lián)盟。W3C于1994年10月在麻省理工學(xué)院計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室成立。創(chuàng)建者是萬維網(wǎng)的發(fā)明者Tim Berners-Lee。

W3C組織是對網(wǎng)絡(luò)標(biāo)準(zhǔn)制定的一個(gè)非贏利組織，像HTML、XHTML、CSS、XML的標(biāo)準(zhǔn)就是由W3C來定制。W3C會(huì)員(大約500名會(huì)員)包括生產(chǎn)技術(shù)產(chǎn)品及服務(wù)的廠商、內(nèi)容供應(yīng)商、團(tuán)體用戶、研究實(shí)驗(yàn)室、標(biāo)準(zhǔn)制定機(jī)構(gòu)和政府部門，一起協(xié)同工作，致力在萬維網(wǎng)發(fā)展方向上達(dá)成共識。對于seo工作者對w3c的認(rèn)識主要體現(xiàn)在對html，xhtml，xml語言標(biāo)簽代碼的語義化認(rèn)識上。

二、網(wǎng)站地圖

1.html網(wǎng)站地圖

Html網(wǎng)站地圖是一種構(gòu)建思路。也是鏈接構(gòu)建技術(shù)。Html地圖是溝通網(wǎng)站主要欄目之間的橋梁。起著引導(dǎo)瀏覽者和促進(jìn)爬蟲程序遍歷全站的作用。如果，地圖鏈接入口過多，應(yīng)該保持每張地圖不超過100個(gè)鏈接入口。

對于天極來說，網(wǎng)站地圖有指向頻道頁及下級分類頁的文本鏈接就足夠了，更重要的是讓用戶很清楚的了解到天極能提供什么以及天極的特色在哪里;對于中型站點(diǎn)來說，仍建議在網(wǎng)站地圖中加入內(nèi)容頁的文字鏈接，可以通過技術(shù)手段生成以文章關(guān)鍵詞搭配文章標(biāo)題為錨文本的文字鏈接網(wǎng)站地圖，并且用程序控制鏈接數(shù)量并自動(dòng)分頁。

2.谷歌網(wǎng)站地圖

Google地圖跟html地圖作用不同，他是完全面對搜索引擎而制作的網(wǎng)站地圖。Google地圖基于xml技術(shù)。Google地圖全稱是Google Sitemaps 是Google 的一個(gè)和網(wǎng)站管理員相關(guān)的工具，建立Google Sitemaps可以有效的促進(jìn)google對網(wǎng)站頁面的收錄�，F(xiàn)在google地圖已經(jīng)被各個(gè)網(wǎng)站廣泛使用。

三、robots.txt

Robots是搜索引擎的爬蟲程序通告(爬行器通告)。對于網(wǎng)站管理者和內(nèi)容提供者來說，有時(shí)候會(huì)有一些站點(diǎn)內(nèi)容，不希望被ROBOTS抓取而公開。為了解決這個(gè)問題，ROBOTS開發(fā)界提供了兩個(gè)辦法：一個(gè)是robots.txt，另一個(gè)是The Robots META標(biāo)簽。

1.什么是robots.txt?

robots.txt是一個(gè)純文本文件，通過在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問的部分，這樣，該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果找到，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍，如果該文件不存在，那么搜索機(jī)器人就沿著鏈接抓取。

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。

網(wǎng)站 URL

相應(yīng)的 robots.txt的 URL

http://www.w3.org/

http://www.w3.org/robots.txt

2. robots.txt的語法

"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符)，每一條記錄的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"

在該文件中可以使用#進(jìn)行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行,詳細(xì)情況如下：

User-agent:

該項(xiàng)的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多條User-agent記錄說明有多個(gè)robot會(huì)受到該協(xié)議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則該協(xié)議對任何機(jī)器人均有效，在"robots.txt"文件中， "User-agent：*"這樣的記錄只能有一條。

Disallow :

該項(xiàng)的值用于描述不希望被訪問到的一個(gè)URL，這個(gè)URL可以是一條完整的路徑，也可以是部分的，任何以Disallow 開頭的URL均不會(huì)被robot訪問到。例如"Disallow: /help"對/help.html 和/help/index.html都不允許搜索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.html，而不能訪問/help/index.html。

任何一條Disallow記錄為空，說明該網(wǎng)站的所有部分都允許被訪問，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果 "/robots.txt"是一個(gè)空文件，則對于所有的搜索引擎robot，該網(wǎng)站都是開放的。

下面是一些robots.txt基本的用法：

禁止所有搜索引擎訪問網(wǎng)站的任何部分：

User-agent: *

Disallow: /

允許所有的robot訪問

User-agent: *

Disallow:

或者也可以建一個(gè)空文件 "/robots.txt" file

禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

禁止某個(gè)搜索引擎的訪問(下例中的BadBot)

User-agent: BadBot

Disallow: /

只允許某個(gè)搜索引擎的訪問(下例中的WebCrawler)

User-agent: WebCrawler

Disallow:

User-agent: *

Disallow: /

標(biāo)簽：網(wǎng)站 w3c 規(guī)范

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:圖片站要想流量高首先優(yōu)化網(wǎng)站頁面結(jié)構(gòu)

下一篇:基礎(chǔ)教程外部鏈接優(yōu)化操作的概念與分析

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

網(wǎng)站的規(guī)范標(biāo)準(zhǔn)化建設(shè)以及robots協(xié)議詳解