一:什么是robots.txt ?
robots.txt是网站和搜索引擎的协议的纯文本文件。
当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt放在项目根目录下。(ps: 文件名必须全部小写)
二:基本语法 ?
User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜索引擎 Disallow:不允许收录
Allow:允许收录
#:注释
三:具体实例
1、全站屏蔽所有蜘蛛:
User-agent: *
Disallow: /
2、全站允许所有蜘蛛:
User-agent: *
Disallow:
3、屏蔽某个目录,但抓取目录下的文件或文件夹
如:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html文件
User-agent: /
Disallow: /wap/
Allow: /wap/*.html
4、禁止具体搜索引擎的抓取网站,比如百度,禁止百度索引网站
User-agent: Baiduspider
Disallow: /
注意: (1). 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错;
(2). 路径后面有斜杠和没有斜杠的区别:
比如 Disallow: /images/ 有斜杠是禁止抓取images整个文件夹;
Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽;
(3). 出于安全考虑,需禁止浏览器直接访问robots.txt