robots.txt的正確寫法,robots.txt如何禁止某個(gè)目錄,圖片等搜索的方法
[重要通告]如您遇疑難雜癥,本站支持知識(shí)付費(fèi)業(yè)務(wù),掃右邊二維碼加博主微信,可節(jié)省您寶貴時(shí)間哦!
今天給自己的網(wǎng)站加了一個(gè)robots.txt,在網(wǎng)上收集整理了一些資料,給自己網(wǎng)站也加上了robots.txt ! 順便給大家分享一下!
一、robots.txt是什么?
robots.txt是一個(gè)純文本文件,在這個(gè)文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被搜索引擎訪問的部分,或者指定搜索引擎只收錄指定的內(nèi)容。
當(dāng)一個(gè)搜索引擎(又稱搜索機(jī)器人或蜘蛛程序)訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。
二、robots.txt的作用
1、引導(dǎo)搜索引擎蜘蛛抓取指定欄目或內(nèi)容;
2、網(wǎng)站改版或者URL重寫優(yōu)化時(shí)候屏蔽對(duì)搜索引擎不友好的鏈接;
3、屏蔽死鏈接、404錯(cuò)誤頁(yè)面;
4、屏蔽無(wú)內(nèi)容、無(wú)價(jià)值頁(yè)面;
5、屏蔽重復(fù)頁(yè)面,如評(píng)論頁(yè)、搜索結(jié)果頁(yè);
6、屏蔽任何不想被收錄的頁(yè)面;
7、引導(dǎo)蜘蛛抓取網(wǎng)站地圖;三、Robots的語(yǔ)法(三個(gè)語(yǔ)法和兩個(gè)通配符)
三個(gè)語(yǔ)法如下:
1、User-agent:(定義搜索引擎)
示例:
User-agent: *(定義所有搜索引擎)
User-agent: Googlebot (定義谷歌,只允許谷歌蜘蛛爬?。?br />
User-agent: Baiduspider (定義百度,只允許百度蜘蛛爬取)
不同的搜索引擎的搜索機(jī)器人有不同的名稱,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。
2、Disallow:(用來定義禁止蜘蛛爬取的頁(yè)面或目錄)
示例:
Disallow: /(禁止蜘蛛爬取網(wǎng)站的所有目錄 "/" 表示根目錄下)
Disallow: /admin (禁止蜘蛛爬取admin目錄)
Disallow: /abc.html (禁止蜘蛛爬去abc.html頁(yè)面)
Disallow: /help.html (禁止蜘蛛爬去help.html頁(yè)面)
3、Allow:(用來定義允許蜘蛛爬取的頁(yè)面或子目錄)
示例:
Allow: /admin/test/(允許蜘蛛爬取admin下的test目錄)
Allow: /admin/abc.html(允許蜘蛛爬去admin目錄中的abc.html頁(yè)面)
兩個(gè)通配符如下:
4、匹配符 “$”
$ 通配符:匹配URL結(jié)尾的字符
5、通配符 “*”
* 通配符:匹配0個(gè)或多個(gè)任意字符
四、robots.txt 綜合示例
1、禁止搜索引擎抓取特定目錄
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問做了限制,即搜索引擎不會(huì)訪問這三個(gè)目錄。
User-agent: * Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/
2、禁止admin目錄,但允許抓取admin目錄下的seo子目錄
User-agent: * Allow: /admin/seo/
Disallow: /admin/
3、禁止抓取/abc/目錄下的所有以".htm”為后綴的URL(包含子目錄)
User-agent: * Disallow: /abc/*.htm$
4、禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
User-agent: * Disallow: /?
屏蔽所有帶“?”的文件,這樣就屏蔽所有的動(dòng)態(tài)路徑。
5、禁止百度蜘蛛抓取網(wǎng)站所有的圖片:
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /.gif$
Disallow: /.png$
Disallow: /*.bmp$
6、要在阻止網(wǎng)站頁(yè)面被抓取的同時(shí)仍然在這些頁(yè)面上顯示 AdSense 廣告
User-agent: * Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
請(qǐng)禁止除 Mediapartners-Google 以外的所有漫游器。 這樣可使頁(yè)面不出現(xiàn)在搜索結(jié)果中,同時(shí)又能讓 Mediapartners-Google 漫游器分析頁(yè)面,從而確定要展示的廣告。 Mediapartners-Google 漫游器并不與其他 Google User-agent 共享網(wǎng)頁(yè)。
7、禁止所有搜索引擎訪問網(wǎng)站的任何部分(也就是網(wǎng)站徹底的拒絕所有搜索引擎收錄)
User-agent: *
Disallow: /
8、允許所有的robot訪問(也就是網(wǎng)站允許所有搜索引擎收錄)
User-agent: *
Disallow:
9、禁止某個(gè)搜索引擎的訪問(比如禁止百度收錄,按如下的方式寫)
User-agent: baiduspider
Disallow: /
10、允許某個(gè)搜索引擎的訪問(比如允許百度收錄,按如下的方式寫)
User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
五、注意事項(xiàng)
1、robots.txt 文件必須放在網(wǎng)站的根目錄,不可以放在子目錄。
以老梁博客網(wǎng)站為例:比如通過 http://xwa227.cn/robots.txt 你就可以訪問到robots.txt文件。
2、robots.txt 文件名命名必須小寫,記得在robot面加“s”。
3、User-agent、Allow、Disallow的 “:” 后面有一個(gè)字符的空格。
4、路徑后面加斜杠“/” 和不加斜杠的是有區(qū)別的
Disallow: /help
禁止蜘蛛訪問 /help.html、/helpabc.html、/help/index.html
Disallow: /help/
禁止蜘蛛訪問 /help/index.html。 但允許訪問 /help.html、/helpabc.html
5、Disallow與Allow行的順序是有意義的:
舉例說明:
允許蜘蛛訪問 /admin/ 目錄下的seo文件夾
User-agent: * Allow: /admin/seo/
Disallow: /admin/
如果Allow 和 Disallow 的順序調(diào)換一下:
User-agent: * Disallow: /admin/
Allow: /admin/seo/
蜘蛛就無(wú)法訪問到 /admin/ 目錄下的 seo 文件夾,因?yàn)榈谝粋€(gè) Disallow: /admin/ 已匹配成功。
六、關(guān)于Robots Meta
Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況,而Robots Meta標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁(yè)面。和其他的META標(biāo)簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,Robots Meta標(biāo)簽也是放在頁(yè)面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁(yè)的內(nèi)容。
Robots Meta 標(biāo)簽中沒有大小寫之分,name="Robots" 表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎(如google)寫為 name="Googlebot", content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以 “,” 分隔。
Index 指令告訴搜索機(jī)器人抓取該頁(yè)面;
NoIndex命令:告訴搜索引擎不允許抓取這個(gè)頁(yè)面
Follow 指令表示搜索機(jī)器人可以沿著該頁(yè)面上的鏈接繼續(xù)抓取下去;
NoFollow命令:告訴搜索引擎不允許從此頁(yè)找到鏈接、拒絕其繼續(xù)訪問。
Robots Meta 標(biāo)簽的缺省值是Index和Follow;
根據(jù)以上的命令,我們就有了一下的四種組合:
可以抓取本頁(yè),而且可以順著本頁(yè)繼續(xù)索引別的鏈接=
不許抓取本頁(yè),但是可以順著本頁(yè)抓取索引別的鏈接
可以抓取本頁(yè),但是不許順著本頁(yè)抓取索引別的鏈接
不許抓取本頁(yè),也不許順著本頁(yè)抓取索引別的鏈接。
七、關(guān)于 rel="nofollow"
將"nofollow"放在超鏈接中,告訴搜索引擎不要抓取特定的鏈接。
如某博客上有垃圾評(píng)論:灌水
就是這些注意事項(xiàng)了,大家去試試robots.txt吧!
問題未解決?付費(fèi)解決問題加Q或微信 2589053300 (即Q號(hào)又微信號(hào))右上方掃一掃可加博主微信
所寫所說,是心之所感,思之所悟,行之所得;文當(dāng)無(wú)敷衍,落筆求簡(jiǎn)潔。 以所舍,求所獲;有所依,方所成!