当前位置: 代码迷 >> Web前端 >> wpo另类有关问题:不可轻视的蜘蛛爬行对服务器造成的负担
  详细解决方案

wpo另类有关问题:不可轻视的蜘蛛爬行对服务器造成的负担

热度:211   发布时间:2012-09-05 15:19:34.0
wpo另类问题:不可轻视的蜘蛛爬行对服务器造成的负担


?

在前面文章中有提到

《对照“BlueDavy的网站架构演变”说说外贸B2C网站实际应用 》提到,比较大的China-Based?外贸B2C网站,一天的访客数量大约是10~100万。

有位iteye的朋友询问:10万是独立IP? 否则光算pageview还是挺小的。

实际上,10万只是指普通访客的IP,没有包括各种搜索蜘蛛的访问,搜索蜘蛛的访问频率很高,往往是数倍、甚至数十倍于访客IP数。这是外贸B2C网站和其他网站有些不同,网站做了很多动态转静态的搜索优化。一个有3万产品的B2C,页面总数量可能达到100万,包括:

1. 产品页面3万个

2. 产品列表分页,10~20万个(分页规则可以按照产品名、产品价格、产品上架时间,分别升序降序排列,还可以按照每页显示产品的数量不同而变成不同的URL),总之都是为了搜索优化充页面。

3. 用户评论,5~10万

4. 论坛:1~10万

5. 站内搜索生成的URL:起码50万

――――――――――――――――――――

合计:大约100万个页面,这还没有计算专门为了排名而做的SEO爆炸式增长页面

?

对于一些外贸B2C网站,可能会发现,做了WPO优化之后,开始的时候网页打开速度挺快,后来突然

――服务器变慢了!(下面就是一个实际网站的例子)

?

?

看看谁在访问,如下图:

这是一个很有意思的现象。大家可以看看前面的例子:《WPO网站性能优化对搜索引擎蜘蛛行为的影响 》提到,网页打开速度快了一倍,Google蜘蛛访问的页面数和页面容量,增加了7倍。

?

原来Google的蜘蛛一天只来3万次,也就是3秒钟一次,现在Google蜘蛛要达到21万次,也就是一秒钟接近3次。可能这个网站的真正用户只有5000人/天,但增加了Google蜘蛛的访问之后,就变成了21.5万次/日。如果再算上Bing的蜘蛛,Yahoo蜘蛛,Yandex蜘蛛以及各种比价网站的蜘蛛,访问数量可能达到50万次了。

这只是一个用户每天访问5000次的小网站,加上蜘蛛的访问就可能达到50万次。如果是一个用户每天访问10万次的网站,加上蜘蛛的访问,翻个5倍到10倍不出奇。这种现象出现在新闻网站、论坛网站的机会不大,但出现在B2C网站的机会很大。为什么?是因为B2C网站大多数做了很多SEO优化,网站的URL很多,一旦增加了新产品,每个URL显示的内容都会变化,蜘蛛都会当作页面已经更新,然后重新爬行一次。

那么该如何处理呢?实际上Google的蜘蛛是相对比较勤劳的,我们可以通过webmaster工具,来限制Google蜘蛛的爬行速度

我们可以看到上图的google蜘蛛爬行速度达到1.75个页面/秒,可以将之调低为0.5个页面/秒,相当于降速200%,后端性能会得到一些改善。爬行设置变更后,google每天大约拿4万个页面,也差不多了。

?

第二种解决方法是:在sitemap中,删掉可能消耗资源的地图。

sitemap不是提交的越多越好。如果太多了,google就分不清主次,让蜘蛛爬个遍。

一些不重要的页面,与其通过提交sitemap让google蜘蛛段时间内全都爬行,实际上对排名没有帮助,反而降低了重要页面(B2C网站中就是产品页)的权重。

所以坚决删掉不重要的sitemap,如下图:

?

?

第三种方法:屏蔽那些没用的蜘蛛

下面是某B2C电子商务网站robots.txt的屏蔽内容

如上图,屏蔽掉大量国内的蜘蛛包括百度。还可以考虑屏蔽掉一些国外不知名的小蜘蛛。

还有就是一些比价网站,经常有蜘蛛专门爬行B2C网站,如果你通过GA发现这些比价网站过来的访问ROI很低的话,干脆屏蔽了。

?

第四种解决方法:后端优化,参见

《对照“BlueDavy的网站架构演变”说说外贸B2C网站实际应用 》 以及BlueDavy的原文。

?

以上是一点外贸B2C在蜘蛛量大增的一些性能优化总结,也应该算WPO的一方面。

?

?

作者:?谭砚耘@用户体验与可用性设计-科研笔记

版权属于:?谭砚耘 (TOTHETOP至尚国际 ?)

版权所有。转载时必须以链接形式注明作者和原始出处

如果你希望与作者交流,请发送邮件到?tanyanyun/at/163.com?别忘了修改小老鼠

  相关解决方案