- mport?org.htmlparser.Parser;? ??
- import?org.htmlparser.beans.StringBean;? ??
- import?org.htmlparser.filters.NodeClassFilter;? ??
- import?org.htmlparser.parserapplications.StringExtractor;? ??
- import?org.htmlparser.tags.BodyTag;? ??
- import?org.htmlparser.util.NodeList;? ??
- import?org.htmlparser.util.ParserException;? ??
- ? ??
- public?class?GetContent?{? ??
- ???? ??
- ????public?void?getContentUsingStringBean(String?url)?{? ??
- ????????StringBean?sb?=?new?StringBean();? ??
- ????????sb.setLinks(true);??????????? ??
- ????????sb.setCollapse(true);?? ??
- ????????sb.setReplaceNonBreakingSpaces(true);//?If?true?regular?space? ??
- ????????sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");? ??
- ????????System.out.println("The?Content?is?:\n"?+?sb.getStrings());? ??
- ? ??
- ????}? ??
- ???? ??
- ????public?void?getContentUsingStringExtractor(String?url,?boolean?link)?{? ??
- ????????StringExtractor?se?=?new?StringExtractor(url);? ??
- ????????String?text?=?null;? ??
- ????????try?{? ??
- ????????????text?=?se.extractStrings(link);? ??
- ????????????System.out.println("The?content?is?:\n"?+?text);? ??
- ????????}?catch?(ParserException?e)?{? ??
- ????????????e.printStackTrace();? ??
- ????????}? ??
- ????}? ??
- ? ??
- ????public?void?getContentUsingParser(String?url)?{? ??
- ????????NodeList?nl;? ??
- ????????try?{? ??
- ????????????Parser?p?=?new?Parser(url);? ??
- ????????????nl?=?p.parse(new?NodeClassFilter(BodyTag.class));? ??
- ????????????BodyTag?bt?=?(BodyTag)?nl.elementAt(0);? ??
- ????????????System.out.println(bt.toPlainTextString());? ??
- ????????????}?catch?(ParserException?e)?{? ??
- ????????????e.printStackTrace();? ??
- ????????}? ??
- ????}? ??
- ???? ??
- ????public?static?void?main(String[]?args)?{ ??
- ????????GetContent?g?=?new?GetContent(); ??
- //??????g.getContentUsingStringBean(""); ??
- //??????g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html"); ??
- ????????g.getContentUsingStringExtractor("http://www.sina.com.cn/",?false); ??
- ????}??
详细解决方案
htmlparser提取网页本文
热度:271 发布时间:2012-12-20 09:53:21.0
相关解决方案
- python模块引见- HTMLParser 简单的HTML和XHTML解析器
- 利用python脚本抓取AC的代码[爬虫+HTMLParser+handle_entityref+正则表达式+模拟登陆+资料操作]
- [转][htmlparser]htmlparser应用例子(全)
- 应用 HttpClient 和 HtmlParser 实现简易爬虫
- htmlparser 除了html标签体(获取body,title纯文本)
- HtmlParser 解析搜寻页面
- 运用 HttpClient 和 HtmlParser 实现简易爬虫
- [转]org.htmlparser.util.ParserException: Error in opening a connection to *
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式)
- 应用 HttpClient 和 HtmlParser 实现简易爬
- HTMLParser
- htmlparser 获取页面婚配链接
- org.htmlparser.util.EncodingChangeException: character
- htmlparser 抓不到网页的内容。该如何解决
- org.htmlparser.util.ParserException: reset stream failed
- 哪位高手知道org.htmlparser.StringNode在哪个版本的jar包
- 【HtmlParser】提取网页的meta信息解决方法
- 使用ASIHTTPRequest 编译提示找不到libxml/HTMLparser.h的解决方法
- org.htmlparser.util.ParserException: Error in opening a connection to ***
- coursera-dl 报错 AttributeError (‘HTMLParser’ object has no attribute ‘unescape’)