robots.txt相关知识点_综合

一：什么是robots.txt ?

robots.txt是网站和搜索引擎的协议的纯文本文件。

当一个搜索引擎蜘蛛来访问站点时，它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在，根据文件内容来确定访问范围，如果没有，蜘蛛就沿着链接抓取。robots.txt放在项目根目录下。（ps: 文件名必须全部小写）

二：基本语法？

User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜索引擎 Disallow:不允许收录

Allow:允许收录

#:注释

三：具体实例

1、全站屏蔽所有蜘蛛：

User-agent: *

Disallow: /

2、全站允许所有蜘蛛：

User-agent: *

Disallow:

3、屏蔽某个目录，但抓取目录下的文件或文件夹

如：屏蔽所有蜘蛛抓取根目录下的wap文件夹，但抓取里面后缀名为html文件

User-agent: /

Disallow: /wap/

Allow: /wap/*.html

4、禁止具体搜索引擎的抓取网站，比如百度，禁止百度索引网站

User-agent: Baiduspider

Disallow: /

注意： (1). 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错；

(2). 路径后面有斜杠和没有斜杠的区别：

比如 Disallow: /images/ 有斜杠是禁止抓取images整个文件夹；

Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽；

(3). 出于安全考虑，需禁止浏览器直接访问robots.txt