在國(guó)內(nèi),網站(zhàn)管理(lǐ)者似乎對(duì)robots.txt并沒有(yǒu)引起多(duō)大(dà)重視(shì),應一(yī)些(xiē)朋(péng)≥友(yǒu)之請(qǐng)求,今天想通(tōng)過這(zhè)篇文(wén)章(zhāng)來(lái)簡單談一(yī)下(xià)robots.÷txt的(de)寫作(zuò)。
robots.txt基本介紹
robots.txt是(shì)一(yī)個(gè)純文(wén)本文(wén)件(jiàn),在這(zhè)個(gè)文(wén)件(jiàn)中網站(zhàn)管理(lǐ)者可(kě)以聲明(míng)該網站(zhàn)中不(bù)想被robots訪×問(wèn)的(de)部分(fēn),或者指定搜索引擎隻收錄指定的(de)內(nèi)容。
當一(yī)個(gè)搜索機(jī)器(qì)人(rén)(有(yǒu)的(de)叫搜索蜘蛛)訪問(wèn)一(yī)個(gè₽)站(zhàn)點時(shí),它會(huì)首先檢查該站(zhàn)點根目錄下(xià)是(shì)否存在robots.txt,如(rú)果存在,搜索機(jī)器(qì)人(rén)就(jiù)會σ(huì)按照(zhào)該文(wén)件(jiàn)中的(de)內(nèi)容來(lái)确定訪問(wèn)的(de)範圍;如(rú)果該文(wén)件(jiàn←)不(bù)存在,那(nà)麽搜索機(jī)器(qì)人(rén)就(jiù)沿著(zhe)鏈接抓取。
另外(wài),robots.txt必須放(fàng)置在一(yī)個(gè)站(zhàn)點的(de)根目錄下(x∏ià),而且文(wén)件(jiàn)名必須全部小(xiǎo)寫。
robots.txt寫作(zuò)語法
首先,我們來(lái)看(kàn)一(yī)個(gè)robots.txt範例:http://www.seovip.cn/robots.txt
訪問(wèn)以上(shàng)具體(tǐ)地(dì)址,我們可(kě)以看(kàn)到(dào)robots.txt的(de)具 體(tǐ)內(nèi)容如(rú)下(xià):
# Robots.txt file fromhttp://www.seovip.cn
# All
robots will spider the domain
User-agent: *
Disallow:
以上(shàng)文(wén)本表達的(de)意思是(shì)允許所有(yǒu)的(de)搜索機(jī)器(qì)人(rén)訪問(εwèn)www.seovip.cn站(zhàn)點下(xià)的(de)所有(yǒu)文(wén)件(jiàn)。
具體(tǐ)語法分(fēn)析:其中#後面文(wén)字為(wèi)說(shuō)明(míng)信息;User-agent:後面為(wèi)搜索機(←jī)器(qì)人(rén)的(de)名稱,後面如(rú)果是(shì)*,則泛指所有(yǒu)的(de)搜索機(jī)器(qì)人(rén);Disallow:後面為(wèi)不±(bù)允許訪問(wèn)的(de)文(wén)件(jiàn)目錄。
下(xià)面,我将列舉一(yī)些(xiē)robots.txt的(de)具體(tǐ)用(yòng)法:
允許所有(yǒu)的(de)robot訪問(wèn)
User-agent: *
Disallow:
或者也(yě)可(kě)以建一(yī)個(gè)空(kōng)文(wén)件(jiàn) "/robots.txt" file
禁止所有(yǒu)搜索引擎訪問(wèn)網站(zhàn)的(de)任何部分(fēn)
User-agent: *
Disallow: /
禁止所有(yǒu)搜索引擎訪問(wèn)網站(zhàn)的(de)幾個(gè)部分(fēn)(下(↓xià)例中的(de)01、02、03目錄)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某個(gè)搜索引擎的(de)訪問(wèn)(下(xià)例中的(de)BadBot)
User-agent: BadBot
Disallow: /
隻允許某個(gè)搜索引擎的(de)訪問(wèn)(下(xià)例中的(de)Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外(wài),我覺得(de)有(yǒu)必要(yào)進行(xíng)拓展說(shuō)明(míng),對(σduì)robots meta進行(xíng)一(yī)些(xiē)介紹:
Robots META标簽則主要(yào)是(shì)針對(duì)一(yī)個(gè)個(gè)具體(tǐ)的(de)頁面。和(hé)其他(tā)的(de)META标簽(如(rú)使用(yòng)的(de)語言、頁面的(de)描述、關鍵詞等)一(yī)樣,Robots META标簽也(yě)是(shì)放(fàng)在頁面的(™de)<head></head>中,專門(mén)用(yòng)來(lái)告訴搜索引擎ROBOTS×如(rú)何抓取該頁的(de)內(nèi)容。
Robots META标簽的(de)寫法:
Robots META标簽中沒有(yǒu)大(dà)小(xiǎo)寫之分(fēn),name=”Robots”表示所有(yǒu)的(de)搜索引擎,可(kě)以針對(duì)某個(gè)具體(×tǐ)搜索引擎寫為(wèi)name=”BaiduSpider”。 content部分(fēn)有(yǒu)四個(gè)指令選✔項:index、noindex、follow、nofollow,指令間(jiān)以“,”分(fēn)隔。
INDEX 指令告訴搜索機(jī)器(qì)人(rén)抓取該頁面;
FOLLOW 指令表示搜索機(jī)器(qì)人(rén)可(kě)以沿著(zhe)該頁面上(shàng)的↔(de)鏈接繼續抓取下(xià)去(qù);
Robots Meta标簽的(de)缺省值是(shì)INDEX和(hé)FOLLOW,隻有(yǒu)inktomi除外(wài),對(duì)β于它,缺省值是(shì)INDEX,NOFOLLOW。
這(zhè)樣,一(yī)共有(yǒu)四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS"
CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS"
CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可(kě)以寫成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可(kě)以寫成<META NAME="ROBOTS" CONTENT="NONE£">
目前看(kàn)來(lái),絕大(dà)多(duō)數(shù)的(de)搜索引擎機(jī)器(qì)人(rén)都(dōu)遵守robots.txt的(de)規則,而對(duì)于Ro§bots META标簽,目前支持的(de)并不(bù)多(duō),但(dàn)是(shì)正在逐漸增加,如(₹rú)著名搜索引擎GOOGLE就(jiù)完全支持,而且GOOGLE還(hái)增加了(le)一(yī)個(gè)指令“archiv✔e”,可(kě)以限制(zhì)GOOGLE是(shì)否保留網頁快(kuài)照(zhào)。例如(rú):
<META NAME="googlebot" CONTENT="index,follow,noarchive">'
表示抓取該站(zhàn)點中頁面并沿著(zhe)頁面中鏈接抓取,但(dàn)是(shì)不(bù)在GOOLGE上(shàng)保留該頁面的(de)網頁快(kuàεi)照(zhào)。

掃碼立即溝通(tōng)
公衆号加關注