http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
网上找到的这个表达式,虽然也能匹配出一些结果,但这些结果还需要处理,有一些结果是乱七八糟的,里面有空格,但这还不是最主要的。
我发现这个表达式用在网易的首页源代码时,根本抓不下几个链接。
就去仔细看了下网页的URL,发现它里面有很多地址是
<li class="order-num-1"><a href="http://news.163.com/13/0124/08/8LVID9O000014JB5#f=wwwrank" title="黑龙江上访妇女劳教期满获释 又被关太平间三年">黑龙江上访妇女劳教期满获释 又被关太平间三年</a></li>
<a href="http://news.163.com/13/0124/08/8LVID9O000014JB5#f=wwwrank"就是这样的地址,上面的正则表达式就不能匹配了,希望能有人帮我修改下,能匹配像网易的URL。
正则表达式 url
------解决方案--------------------------------------------------------
(https?://)?[^"'\s]
------解决方案--------------------------------------------------------
https?://([\w-]+\.)+[\w-]+([\w-\ ./?%&=#]*)?
------解决方案--------------------------------------------------------
你要大概理解正则表达式才好的
上面的表达式改为:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=#]*)?
就可以了,就是后面增加一个#好,还是老老实实看看正则的介绍吧