package com.web.test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; /** * JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。 * * @author YYmmiinngg */ public class ReadHTML2 { public static void main(String[] args) { try { //1.网页HTML String strUrl = "http://www.boc.cn/finadata/lilv/"; URL url = new URL(strUrl); InputStreamReader isr = new InputStreamReader(url.openStream()); BufferedReader br = new BufferedReader(isr); String htmlString = ""; //2.本地HTML // File f=new File("fortest.htm"); //输入流 // InputStreamReader isr1=new InputStreamReader(new FileInputStream(f)); // BufferedReader br=new BufferedReader(isr1); //获取html转换成String String s; String allContent = ""; while ((s = br.readLine()) != null) { allContent = allContent + s; } //使用后HTML Parser 控件 Parser myParser = Parser.createParser(allContent, "utf-8"); try { // 通过过滤器过滤出<A>标签 NodeList nodeList = myParser .extractAllNodesThatMatch(new NodeFilter() { //实现该方法,用以过滤标签 public boolean accept(Node node) { if (node instanceof LinkTag) //<A>标记 return true; return false; } }); // 打印 for (int i = 0; i < nodeList.size(); i++) { LinkTag n = (LinkTag) nodeList.elementAt(i); System.out.print(n.getStringText() + " ==>> "); System.out.println(n.extractLink()); } } catch (Exception e) { e.printStackTrace(); } } catch (Exception e) { e.printStackTrace(); } } }
详细解决方案
JAVA中运用Htmlparse解析HTML文档
热度:347 发布时间:2012-07-01 13:15:00.0
相关解决方案
- java 乱码 汉字是 ? 如何转换成汉字
- java web 登录次数限制,该如何解决
- java 工商银行网银支付 B2B的 都亟需什么,需要注意什么
- Java Applet程序从JDK6升级到7时遇到的有关问题
- java web 视频相干
- 请教一个关于链接后缀的有关问题(java web 应用)
- java 系统单点登录解决方案
- java.lang.NumberFormatException: For input string: "id"该如何处理
- java.lang.NoSuchMethodException: setId([Ljava.lang.String;)解决方法
- java 获取客户端IP解决办法
- JAVA 后台怎么获得前台页面FCKedit编辑器中的内容以及内容的样式
- java 正则化匹配有关问题
- java web 受阻
- java.lang.IllegalStateException: No output folder,该怎么解决
- java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.makeAccess,该如何解决
- java 乱码有关问题 急求大神
- java EE错误如何解决阿,都是过了,没有能解决的!
- java 工程打包有关问题 多谢各位大神!多谢
- JAVA WEB导航条,该怎么处理
- java.sql.SQLException: Access denied for user 'root'@'localhost' (using password,该如何处理
- java 中Node 有关问题
- 关于 java 引述传递和值传递,你的知否
- 吐了,java Timer 终止不了。
- Java Web 学习中有关问题,请高手指教
- java web中的url地址小疑点。
- java web开发解决办法
- java.lang.NullPointerException解决方法
- 关于 java cast 有关问题,你明白不
- java ftp 下传和上载乱码有关问题
- java web项目上的一些文件