1. font style="color:#c30">[图文]</font> E+H公司在我校区设立优秀学子奖学金</a></li><li><span style="white-space:nowrap;color:#09f">
2. </span><a href=news_show.asp?id=10857>评论员文章:坚守教学质量生命线</a></li><li><span style="white-space:nowrap;color:#09f">
我想刮网页中指定内容,这两行是具有代表性的目标字符串,分别想获得这两个内容:
1. E+H公司在我校区设立优秀学子奖学金
2. 评论员文章:坚守教学质量生命线
第一个内容并不是全中文,算是所有中比较特殊的;第二个并没有图文,所以其HTML源码中也没有类似<font></font>之类的;其他的基本是带图文,中文标题。
对应标题链接为省力只是逐一提取了id :<a href=news_show.asp?id=10857>
所以需要一个能够一次符合的正则表达式提取所有标题
万望前辈们能够指点一二。
小生在此谢过已自行解决,在共有的"id="出开始提取,最后使用split筛选去<font>.*?</font>字段,这样大家就相同了。
然后用统一的一个正则表达式就可以按序将标题提取出来还木有人么。。还是木有。。