前面之所以大费周章得搞预渲染和动态meta,都是为了让爬虫更好的爬取我们的网站,接下来记录的是SEO中最基础也是最有用的: robots.txt 和网站地图 sitemap
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
因为我的服务器带宽较小,配置也一般,所以我的robots.txt设置成这样:
User-agent: *
Disallow: /css/
Disallow: /fonts/
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Sitemap: https://www.baidu.com/sitemap.xml
其中
User-agent:* 是指可以然后任何爬虫来爬取页面
Disallow: *** 是指不允许爬虫爬取的页面或者目录(这里我禁止了图片的爬取,主要是服务器配置不高,这样可以在一定程度上防盗链,减轻服务器压力)
Sitemap:*** 是告诉爬虫网站地图的位置使其更方便爬取
接下来说说网站地图 sitemap,规则咋看上去有点乱,一般怕写错可以在网站搜一下专门生成sitemap的网站来爬取生成。sitemap可以有多重格式,一般都是采用xml格式。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url><loc>https://www.baidu.com/Home</loc><mobile:mobile type="pc,mobile" /><priority>0.5</priority><lastmod>2019-07-21</lastmod><changefreq>weekly</changefreq>
</url>
</urlset>
上面时间最简单的形式,只有一个页面的信息告知爬虫该页面的网址、可用来访问的设备、优先级、最近更新和更新频率等信息。