内容摘要: 静态页面的缓存可能有2种形式:其实主要区别就是CMS是否自己负责关联内容的缓存更新管理。 静态缓存的缺点: 在动态缓存模式中,每个动态页面只需要关心,而相关的其他页面能自动更新,从而大大减少了设计相关页面更新触发器的需要。 以前做小型应用的时候也用过类似方式:应用首次访问以后将数据 库的查询结果在本地存成一个文件,下次请求时先检查本地缓存目录中是否有缓存文件,从而减少对后 台数据库的访问。虽然这样做也能承载比较大的负载,但这样的内容管理和缓存管理一体的系统是很难分离的,而且数据完整性也不是很好保存,内容更新时,应用 需要把相应内容的的缓存文件删除。但是这样的设计在缓存文件很多的时候往往还需要将缓存目录做一定的分布,否则一个目录下的文件节点超过3000,rm *都会出错。 这时候,系统需要再次分工,把复杂的内容管理系统分解成:内容输入和缓存这2个相对简单的系统实现。 所以分工后:内容管理和缓存管理2者,无论哪一方面可选的余地都是非常大的:软件(比如前台80端口使用SQUID对后台8080的内容发布管理系 统进行缓存),缓存硬件,甚至交给akamai这样的专业服务商。 Microsoft JET Database Engine?错误 '80040e57' 字段太小而不能接受所要添加的数据的数量。试着插入或粘贴较少的数据。 /inc/char.asp, 行236 ?
对于一个日访问量达到百万级的网站来说,速度很快就成为一个瓶颈。除了优化 内容发布系统的应用本身外,如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布,速度上的提升效果将是显著的,因为一个动态页面的速度往往 会比静态页面慢2-10倍,而静态网页的内容如果能被缓存 在内存里,访问速度甚至会比原有动态网页有2-3个数量级的提高。
后台的内容管理系统的页面输出遵守可缓存的设计,这样就可以把性能问题交给前台的缓存服务器来解决了,从而大大简化CMS系统本身的复杂程度。
HTTP_HOST/SERVER_NAME和REMOTE_ADDR/REMOTE_HOST需要用 HTTP_X_FORWARDED_HOST/HTTP_X_FORWARDED_SERVER代替
静态缓存和动态缓存的比较
如果去ZDNet等国外网站会发现他们使用的基于Vignette内容管理系统都有这样的页面名称:0,22342566,300458.html。其实这里 的0,22342566,300458就是用逗号分割开的多个参数:
第一次访问找不到页面后,相当于会在服务器端产生一个doc_type= 0&doc_id=22342566&doc_template=300458的查询,
而查询结果会生成的缓存的静态页面: 0,22342566,300458.html
______________________ ___________________ |Squid Software cache| |F5 Hardware cache| ---------------------- ------------------- \ / \ ________________ / |ASP |JSP |PHP | Content Manage System ----------------
面向缓存的站点规划
一个利用SQUID对多个站点进行做WEB加速http acceleration方案:
原先一个站点的规划可能是这样的:
200.200.200.207 www.chedong.com?
200.200.200.208 news.chedong.com?
200.200.200.209 bbs.chedong.com?
200.200.200.205 images.chedong.com
面向缓存服务器的设计中:所有站点都通过外部DNS指向到同一个IP:200.200.200.200/201这2台缓存服务器上(使用2台是为了 冗余备份) _____________________ ________ www.chedong.com 请求 \ | cache box | | | / 192.168.0.4 www.chedong.com news.chedong.com 请求 -| 200.200.200.200/201 |-|firewall| - 192.168.0.4 news.chedong.com bbs.chedong.com 请求 / | /etc/hosts | | box | \ 192.168.0.3 bbs.chedong.com --------------------- --------
工作原理:
外部请求过来时,设置缓存根据配置文件进行转向解析。这样,服务器请求就可以转 发到我们指定的内部地址上。
在处理多虚拟主机转向方面:mod_proxy比squid要简单一些:可以把不同服务转向后后台多个IP的不同端口上。
而squid只能通过禁用DNS解析,然后根据本地的/etc/hosts文件根据请求的域名进行地址转发,后台多个服务器必须使用相同的端口。
使用反向代理加速,我们不仅可以得到性能上的提升,而且还能获得额外的安全性和配置的灵活度:
基于Apache mod_proxy的反向代理缓存加速实现
Apache包含了mod_proxy模块,可以用来实现代理服务器,针对后台服务器的反向加速
安装apache 1.3.x 编译时:
--enable-shared=max --enable-module=most
注:Apache 2.x中mod_proxy已经被分离成mod_proxy和mod_cache:同时mod_cache有基于文件和基于内存的不同实现
创建/var/www/proxy,设置apache服务所用户可写
mod_proxy配置样例:反相代理缓存+缓存
架设前台的www.example.com反向代理后台的www.backend.com的8080端口服务。
修改:httpd.conf
<VirtualHost *>
ServerName www.example.com
ServerAdmin admin@example.com
# reverse proxy setting
ProxyPass / http://www.backend.com:8080/
ProxyPassReverse / http://www.backend.com:8080/
# cache dir root
CacheRoot "/var/www/proxy"
# max cache storage
CacheSize 50000000
# hour: every 4 hour?
CacheGcInterval 4
# max page expire time: hour
CacheMaxExpire 240
# Expire time = (now - last_modified) * CacheLastModifiedFactor?
CacheLastModifiedFactor 0.1
# defalt expire tag: hour
CacheDefaultExpire 1
# force complete after precent of content retrived: 60-90%
CacheForceCompletion 80
CustomLog /usr/local/apache/logs/dev_access_log combined
</VirtualHost>
基于Squid的反向代理加速实现
Squid是一个更专用的代理服务器,性能和效率会比Apache的mod_proxy高很多。
如果需要combined格式日志补丁:
http://www.squid-cache.org/mail-archive/squid-dev/200301/0164.html
squid的编译:
./configure --enable-useragent-log? --enable-referer-log --enable-default-err-language=Simplify_Chinese \ --enable-err-languages="Simplify_Chinese English" --disable-internal-dns??
make
#make install
#cd /usr/local/squid
make dir cache
chown squid.squid *
vi /usr/local/squid/etc/squid.conf
在/etc/hosts中:加入内部的DNS解析,比如:
192.168.0.4 www.chedong.com?
192.168.0.4 news.chedong.com
192.168.0.3 bbs.chedong.com
---------------------cut here----------------------------------
# visible name
visible_hostname cache.example.com
# cache config: space use 1G and memory use 256M
cache_dir ufs /usr/local/squid/cache 1024 16 256?
cache_mem 256 MB
cache_effective_user squid
cache_effective_group squid
http_port 80
httpd_accel_host virtual
httpd_accel_single_host off
httpd_accel_port 80
httpd_accel_uses_host_header on
httpd_accel_with_proxy on
# accelerater my domain only
acl acceleratedHostA dstdomain .example1.com
acl acceleratedHostB dstdomain .example2.com
acl acceleratedHostC dstdomain .example3.com
# accelerater http protocol on port 80
acl acceleratedProtocol protocol HTTP
acl acceleratedPort port 80
# access arc
acl all src 0.0.0.0/0.0.0.0
# Allow requests when they are to the accelerated machine AND to the
# right port with right protocol
http_access allow acceleratedProtocol acceleratedPort acceleratedHostA
http_access allow acceleratedProtocol acceleratedPort acceleratedHostB
http_access allow acceleratedProtocol acceleratedPort acceleratedHostC
# logging
emulate_httpd_log on
cache_store_log none
# manager
acl manager proto cache_object
http_access allow manager all
cachemgr_passwd pass all
----------------------cut here---------------------------------
创建缓存目录:
/usr/local/squid/sbin/squid -z
启动squid
/usr/local/squid/sbin/squid
停止squid:
/usr/local/squid/sbin/squid -k shutdown
启用新配置:
/usr/local/squid/sbin/squid -k reconfig
通过crontab每天0点截断/轮循日志:
0 0 * * * (/usr/local/squid/sbin/squid -k rotate)?
可缓存的动态页面设计
什么样的页面能够比较好的被缓存服务器缓存呢?如果返回内容的HTTP HEADER中有"Last-Modified"和"Expires"相关声明,比如:
Last-Modified: Wed, 14 May 2003 13:06:17 GMT
Expires: Fri, 16 Jun 2003 13:06:17 GMT
前端缓存服务器在期间会将生成的页面缓存在本地:硬盘或者内存中,直至上述页面过期。
因此,一个可缓存的页面:
ASP应用的缓存改造 首先在公用的包含文件中(比如include.asp)加入以下公用函数:
一般纯静态页面本身都会有Last-Modified信息,动态页面需要通过函数强制加上,比如在PHP中:
// always modified now
header("Last-Modified: " . gmdate("D, d M Y H:i:s") . " GMT");
对于静态页面,通过apache的mod_expires根据页面的MIME类型设置缓存周期:比如图片缺省是1个月,HTML页面缺省是2天等。
<IfModule mod_expires.c>?
? ? ExpiresActive on
? ? ExpiresByType image/gif "access plus 1 month"
? ? ExpiresByType text/css "now plus 2 day"
? ? ExpiresDefault "now plus 1 day"
</IfModule>
对于动态页面,则可以直接通过写入HTTP返回的头信息,比如对于新闻首页index.php可以是20分钟,而对于具体的一条新闻页面可能是1天后过 期。比如:在php中加入了1个月后过期:
// Expires one month later
header("Expires: " .gmdate ("D, d M Y H:i:s", time() + 3600 * 24 * 30). " GMT");
<%
' Set Expires Header in minutes
Function SetExpiresHeader(ByVal minutes)?
??? ' set Page Last-Modified Header:
??? ' Converts date (19991022 11:08:38) to http form (Fri, 22 Oct 1999 12:08:38 GMT)
??? Response.AddHeader "Last-Modified", DateToHTTPDate(Now())
????
??? ' The Page Expires in Minutes
??? Response.Expires = minutes
????
??? ' Set cache control to externel applications
??? Response.CacheControl = "public"
End Function?
' Converts date (19991022 11:08:38) to http form (Fri, 22 Oct 1999 12:08:38 GMT)
Function DateToHTTPDate(ByVal OleDATE)
? Const GMTdiff = #08:00:00#
? OleDATE = OleDATE - GMTdiff
? DateToHTTPDate = engWeekDayName(OleDATE) & _
??? ", " & Right("0" & Day(OleDATE),2) & " " & engMonthName(OleDATE) & _
??? " " & Year(OleDATE) & " " & Right("0" & Hour(OleDATE),2) & _
??? ":" & Right("0" & Minute(OleDATE),2) & ":" & Right("0" & Second(OleDATE),2) & " GMT"
End Function?
Function engWeekDayName(dt)
??? Dim Out
??? Select Case WeekDay(dt,1)
??? ??? Case 1:Out="Sun"
??? ??? Case 2:Out="Mon"
??? ??? Case 3:Out="Tue"
??? ??? Case 4:Out="Wed"
??? ??? Case 5:Out="Thu"
??? ??? Case 6:Out="Fri"
??? ??? Case 7:Out="Sat"
??? End Select
??? engWeekDayName = Out
End Function
Function engMonthName(dt)
??? Dim Out
??? Select Case Month(dt)
??? ??? Case 1:Out="Jan"
??? ??? Case 2:Out="Feb"
??? ??? Case 3:Out="Mar"
??? ??? Case 4:Out="Apr"
??? ??? Case 5:Out="May"
??? ??? Case 6:Out="Jun"
??? ??? Case 7:Out="Jul"
??? ??? Case 8:Out="Aug"
??? ??? Case 9:Out="Sep"
??? ??? Case 10:Out="Oct"
??? ??? Case 11:Out="Nov"
??? ??? Case 12:Out="Dec"
??? End Select
??? engMonthName = Out
End Function
%>
然后在具体的页面中,比如index.asp和news.asp的“最上面”加入以下代码:HTTP Header
<!--#include file="../include.asp"-->
<%
'页面将被设置20分钟后过期
SetExpiresHeader(20)
%>
应用的缓存兼容性设计
经过代理以后,由于在客户端和服务之间增加了中间层,因此服务器无法直接拿到客户端的IP,服务器端应用也无法直接通过转发请求的地址返回给客户端。但是 在转发请求的HTTD头信息中,增加了HTTP_X_FORWARDED_????信息。用以跟踪原有的客户端IP地址和原来客户端请求的服务器地址:
下面是2个例子,用于说明缓存兼容性应用的设计原则:
'对于一个需要服务器名的地址的ASP应用:不要直接引用HTTP_HOST/SERVER_NAME,判断一下是否有HTTP_X_FORWARDED_SERVER function getHostName () dim hostName as String = "" hostName = Request.ServerVariables("HTTP_HOST") if not isDBNull(Request.ServerVariables("HTTP_X_FORWARDED_HOST")) then if len(trim(Request.ServerVariables("HTTP_X_FORWARDED_HOST"))) > 0 then hostName = Request.ServerVariables("HTTP_X_FORWARDED_HOST") end if end if return hostNmae end function //对于一个需要记录客户端IP的PHP应用:不要直接引用REMOTE_ADDR,而是要使用HTTP_X_FORWARDED_FOR, function getUserIP (){ $user_ip = $_SERVER["REMOTE_ADDR"]; if ($_SERVER["HTTP_X_FORWARDED_FOR"]) { $user_ip = $_SERVER["HTTP_X_FORWARDED_FOR"]; } }
注意:HTTP_X_FORWARDED_FOR如果经过了多个中间代理服务器,有何能是逗号分割的多个地址,
比如:200.28.7.155,200.10.225.77 unknown,219.101.137.3
因此在很多旧的数据库设计中(比如BBS)往往用来记录客户端地址的字段被设置成20个字节就显得过小了。
经常见到类似以下的错误信息:
如何检查目前站点页面的可缓存性(Cacheablility)呢?可以参考以下2个站点上的工具:
http://www.ircache.net/cgi-bin/cacheability.py
附:SQUID性能测试试验
phpMan.php是一个基于php的man page server,每个man
page需要调用后台的man命令和很多页面格式化工具,系统负载比较高,提供了Cache
Friendly的URL,以下是针对同样的页面的性能测试资料:
测试环境:Redhat 8 on Cyrix 266 / 192M Mem?
测试程序:使用apache的ab(apache benchmark):
测试条件:请求50次,并发50个连接
测试项目:直接通过apache 1.3 (80端口) vs squid 2.5(8000端口:加速80端口)?
测试1:无CACHE的80端口动态输出:
ab -n 100 -c 10 http://www.chedong.com:81/phpMan.php/man/kill/1
This is ApacheBench, Version 1.3d <$Revision: 1.2 $> apache-1.3
Copyright (c) 1996 Adam Twiss, Zeus Technology Ltd,
http://www.zeustech.net/
Copyright (c) 1998-2001 The Apache Group, http://www.apache.org/
Benchmarking localhost (be patient).....done
Server Software:???????
Apache/1.3.23?????????????????????????????????????
Server Hostname:??????? localhost
Server
Port:???????????
80
Document Path:?????????
/phpMan.php/man/kill/1
Document Length:??????? 4655 bytes
Concurrency Level:????? 5
Time taken for tests:?? 63.164 seconds
Complete requests:????? 50
Failed requests:??????? 0
Broken pipe errors:???? 0
Total transferred:????? 245900 bytes
HTML transferred:?????? 232750 bytes
Requests per second:??? 0.79 [#/sec] (mean)
Time per request:?????? 6316.40 [ms]
(mean)
Time per request:?????? 1263.28 [ms]
(mean, across all concurrent requests)
Transfer rate:?????????
3.89 [Kbytes/sec] received
Connnection Times (ms)
?????????????
min? mean[+/-sd] median?? max
Connect:??????? 0???
29? 106.1????? 0?? 553
Processing:? 2942? 6016
1845.4?? 6227 10796
Waiting:????
2941? 5999 1850.7?? 6226 10795
Total:??????
2942? 6045 1825.9?? 6227 10796
Percentage of the requests served within a certain time (ms)
? 50%?? 6227
? 66%?? 7069
? 75%?? 7190
? 80%?? 7474
? 90%?? 8195
? 95%?? 8898
? 98%?? 9721
? 99%? 10796
?100%? 10796 (last request)
测试2:SQUID缓存输出
/home/apache/bin/ab -n50 -c5
"http://localhost:8000/phpMan.php/man/kill/1"
This is ApacheBench, Version 1.3d <$Revision: 1.2 $> apache-1.3
Copyright (c) 1996 Adam Twiss, Zeus Technology Ltd,
http://www.zeustech.net/
Copyright (c) 1998-2001 The Apache Group, http://www.apache.org/
Benchmarking localhost (be patient).....done
Server Software:???????
Apache/1.3.23?????????????????????????????????????
Server Hostname:??????? localhost
Server
Port:???????????
8000
Document Path:?????????
/phpMan.php/man/kill/1
Document Length:??????? 4655 bytes
Concurrency Level:????? 5
Time taken for tests:?? 4.265 seconds
Complete requests:????? 50
Failed requests:??????? 0
Broken pipe errors:???? 0
Total transferred:????? 248043 bytes
HTML transferred:?????? 232750 bytes
Requests per second:??? 11.72 [#/sec] (mean)
Time per request:?????? 426.50 [ms] (mean)
Time per request:?????? 85.30 [ms] (mean,
across all concurrent requests)
Transfer rate:?????????
58.16 [Kbytes/sec] received
Connnection Times (ms)
?????????????
min? mean[+/-sd] median?? max
Connect:???????
0???? 1???
9.5????? 0??? 68
Processing:????
7??? 83? 537.4?????
7? 3808
Waiting:???????
5??? 81? 529.1?????
6? 3748
Total:?????????
7??? 84? 547.0?????
7? 3876
Percentage of the requests served within a certain time (ms)
? 50%????? 7
? 66%????? 7
? 75%????? 7
? 80%????? 7
? 90%????? 7
? 95%????? 7
? 98%????? 8
? 99%?? 3876
?100%?? 3876 (last request)
结论:No Cache / Cache = 6045 / 84 = 70
结论:对于可能被缓存请求的页面,服务器速度可以有2个数量级的提高,因为SQUID是把缓存页面放在内存里的(因此几乎没有硬盘I/O操作)。
小节:
参考资料:
HTTP代理缓存?
http://vancouver-webpages.com/proxy.html
可缓存的页面设计
http://linux.oreillynet.com/pub/a/linux/2002/02/28/cachefriendly.html
运用ASP.NET的输出缓冲来存储动态页面 -? 开发者 - ZDNet China
http://www.zdnet.com.cn/developer/tech/story/0,2000081602,39110239-2,00.htm
相关RFC文档:
2616:
13?(Caching)
14.9?(Cache-Control header)
14.21?(Expires header)
14.32?(Pragma: no-cache) is important if you are interacting with
HTTP/1.0 caches
14.29?(Last-Modified) is the most common validation method
3.11?(Entity Tags) covers the extra validation method
可缓存性检查
http://www.web-caching.com/cacheability.html
缓存设计要素
http://vancouver-webpages.com/CacheNow/detail.html
ZOPE上的几篇使用APACHE MOD_PROXY MOD_GZIP加速的文档
http://www.zope.org/Members/anser/apache_zserver/
http://www.zope.org/Members/softsign/ZServer_and_Apache_mod_gzip
http://www.zope.org/Members/rbeer/caching
?