记录：学习网站SEO之 robots.txt 和网站地图 sitemap_综合

前面之所以大费周章得搞预渲染和动态meta，都是为了让爬虫更好的爬取我们的网站，接下来记录的是SEO中最基础也是最有用的: robots.txt 和网站地图 sitemap

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式，就是XML文件，在其中列出网站中的网址以及关于每个网址的其他元数据（上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等），以便搜索引擎可以更加智能地抓取网站。

因为我的服务器带宽较小，配置也一般，所以我的robots.txt设置成这样：

User-agent: *
Disallow: /css/
Disallow: /fonts/
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Sitemap: https://www.baidu.com/sitemap.xml

其中

User-agent：* 是指可以然后任何爬虫来爬取页面

Disallow: *** 是指不允许爬虫爬取的页面或者目录（这里我禁止了图片的爬取，主要是服务器配置不高，这样可以在一定程度上防盗链，减轻服务器压力）

Sitemap：*** 是告诉爬虫网站地图的位置使其更方便爬取

接下来说说网站地图 sitemap，规则咋看上去有点乱，一般怕写错可以在网站搜一下专门生成sitemap的网站来爬取生成。sitemap可以有多重格式，一般都是采用xml格式。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url><loc>https://www.baidu.com/Home</loc><mobile:mobile type="pc,mobile" /><priority>0.5</priority><lastmod>2019-07-21</lastmod><changefreq>weekly</changefreq>
</url>
</urlset>