中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

網(wǎng)站的規(guī)范標(biāo)準(zhǔn)化建設(shè)以及robots協(xié)議詳解

2019-03-05    來(lái)源:中國(guó)站長(zhǎng)站

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

一、遵循W3C規(guī)范

W3C是英文 World Wide Web Consortium 的縮寫,中文意思是W3C理事會(huì)或萬(wàn)維網(wǎng)聯(lián)盟。W3C于1994年10月在麻省理工學(xué)院計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室成立。創(chuàng)建者是萬(wàn)維網(wǎng)的發(fā)明者Tim Berners-Lee。

W3C組織是對(duì)網(wǎng)絡(luò)標(biāo)準(zhǔn)制定的一個(gè)非贏利組織,像HTML、XHTML、CSS、XML的標(biāo)準(zhǔn)就是由W3C來(lái)定制。W3C會(huì)員(大約500名會(huì)員)包括生產(chǎn)技術(shù)產(chǎn)品及服務(wù)的廠商、內(nèi)容供應(yīng)商、團(tuán)體用戶、研究實(shí)驗(yàn)室、標(biāo)準(zhǔn)制定機(jī)構(gòu)和政府部門,一起協(xié)同工作,致力在萬(wàn)維網(wǎng)發(fā)展方向上達(dá)成共識(shí)。對(duì)于seo工作者對(duì)w3c的認(rèn)識(shí)主要體現(xiàn)在對(duì)html,xhtml,xml語(yǔ)言標(biāo)簽代碼的語(yǔ)義化認(rèn)識(shí)上。

二、網(wǎng)站地圖

1.html網(wǎng)站地圖

Html網(wǎng)站地圖是一種構(gòu)建思路。也是鏈接構(gòu)建技術(shù)。Html地圖是溝通網(wǎng)站主要欄目之間的橋梁。起著引導(dǎo)瀏覽者和促進(jìn)爬蟲(chóng)程序遍歷全站的作用。如果,地圖鏈接入口過(guò)多,應(yīng)該保持每張地圖不超過(guò)100個(gè)鏈接入口。

對(duì)于天極來(lái)說(shuō),網(wǎng)站地圖有指向頻道頁(yè)及下級(jí)分類頁(yè)的文本鏈接就足夠了,更重要的是讓用戶很清楚的了解到天極能提供什么以及天極的特色在哪里;對(duì)于中型站點(diǎn)來(lái)說(shuō),仍建議在網(wǎng)站地圖中加入內(nèi)容頁(yè)的文字鏈接,可以通過(guò)技術(shù)手段生成以文章關(guān)鍵詞搭配文章標(biāo)題為錨文本的文字鏈接網(wǎng)站地圖,并且用程序控制鏈接數(shù)量并自動(dòng)分頁(yè)。

2.谷歌網(wǎng)站地圖

Google地圖跟html地圖作用不同,他是完全面對(duì)搜索引擎而制作的網(wǎng)站地圖。Google地圖基于xml技術(shù)。Google地圖全稱是Google Sitemaps 是Google 的一個(gè)和網(wǎng)站管理員相關(guān)的工具,建立Google Sitemaps可以有效的促進(jìn)google對(duì)網(wǎng)站頁(yè)面的收錄,F(xiàn)在google地圖已經(jīng)被各個(gè)網(wǎng)站廣泛使用。

三、robots.txt

Robots是搜索引擎的爬蟲(chóng)程序通告(爬行器通告)。對(duì)于網(wǎng)站管理者和內(nèi)容提供者來(lái)說(shuō),有時(shí)候會(huì)有一些站點(diǎn)內(nèi)容,不希望被ROBOTS抓取而公開(kāi)。為了解決這個(gè)問(wèn)題,ROBOTS開(kāi)發(fā)界提供了兩個(gè)辦法:一個(gè)是robots.txt,另一個(gè)是The Robots META標(biāo)簽。

1.什么是robots.txt?

robots.txt是一個(gè)純文本文件,通過(guò)在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問(wèn)的部分,這樣,該網(wǎng)站的部分或全部?jī)?nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍,如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。

網(wǎng)站 URL

相應(yīng)的 robots.txt的 URL

http://www.w3.org/

http://www.w3.org/robots.txt

2. robots.txt的語(yǔ)法

"robots.txt"文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示:

"<field>:<optionalspace><value><optionalspace>"

在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow行,詳細(xì)情況如下:

User-agent:

該項(xiàng)的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到該協(xié)議的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何機(jī)器人均有效,在"robots.txt"文件中, "User-agent:*"這樣的記錄只能有一條。

Disallow :

該項(xiàng)的值用于描述不希望被訪問(wèn)到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開(kāi)頭的URL均不會(huì)被robot訪問(wèn)到。例如"Disallow: /help"對(duì)/help.html 和/help/index.html都不允許搜索引擎訪問(wèn),而"Disallow: /help/"則允許robot訪問(wèn)/help.html,而不能訪問(wèn)/help/index.html。

任何一條Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部分都允許被訪問(wèn),在"/robots.txt"文件中,至少要有一條Disallow記錄。如果 "/robots.txt"是一個(gè)空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。

下面是一些robots.txt基本的用法:

禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分:

User-agent: *

Disallow: /

允許所有的robot訪問(wèn)

User-agent: *

Disallow:

或者也可以建一個(gè)空文件 "/robots.txt" file

禁止所有搜索引擎訪問(wèn)網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

禁止某個(gè)搜索引擎的訪問(wèn)(下例中的BadBot)

User-agent: BadBot

Disallow: /

只允許某個(gè)搜索引擎的訪問(wèn)(下例中的WebCrawler)

User-agent: WebCrawler

Disallow:

User-agent: *

Disallow: /

標(biāo)簽: 網(wǎng)站 w3c 規(guī)范 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:圖片站要想流量高 首先優(yōu)化網(wǎng)站頁(yè)面結(jié)構(gòu)

下一篇:基礎(chǔ)教程 外部鏈接優(yōu)化操作的概念與分析