当前位置: 代码迷 >> 综合 >> robots.txt相关知识点
  详细解决方案

robots.txt相关知识点

热度:51   发布时间:2023-11-04 22:20:04.0
 
 

一:什么是robots.txt ?

      robots.txt是网站和搜索引擎的协议的纯文本文件。

     当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt放在项目根目录下。(ps: 文件名必须全部小写)

二:基本语法 ?

      User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜索引擎                  Disallow:不允许收录

       Allow:允许收录

       #:注释

三:具体实例

1、全站屏蔽所有蜘蛛:

     User-agent: *

     Disallow: /

2、全站允许所有蜘蛛:

     User-agent: *

     Disallow: 

3、屏蔽某个目录,但抓取目录下的文件或文件夹

   如:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html文件

         User-agent: /

         Disallow: /wap/

         Allow: /wap/*.html

4、禁止具体搜索引擎的抓取网站,比如百度,禁止百度索引网站

        User-agent: Baiduspider

        Disallow: /

注意: (1). 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错;

            (2). 路径后面有斜杠和没有斜杠的区别:

                  比如  Disallow: /images/ 有斜杠是禁止抓取images整个文件夹;

                            Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽;

            (3). 出于安全考虑,需禁止浏览器直接访问robots.txt