想写一个用网页提取源码的小程序,求大神解答问题
我想写一个程序提取网页源码,然后筛选需要的信息显示出来,可是提取源码的程序弄出来了,发现要是一些动态网站好像不能提取,比如说12306之类的,但是百度的可以正常提取,提取出来写入文件,我想知道如何正常提取这类网页的源码,就像在这个网页上点击查看源文件那样的完全程序代码:
import java.net.*;
import java.io.*;
public class TextUrl {
public static void main(String args[]) throws Exception{
try{
PrintWriter pw = new PrintWriter(new FileWriter("F://fuck.txt"));
URL url = new URL("http://www.hao123.com/");
InputStreamReader isr = new InputStreamReader(url.openStream());
BufferedReader br = new BufferedReader(isr);
String result = null;
while((result = br.readLine())!=null) {
pw.println(result);
System.out.println(result);
}
br.close();
isr.close();
}catch(Exception ae) {ae.printStackTrace();}
}
}
import java.io.*;
public class TextUrl {
public static void main(String args[]) throws Exception{
try{
PrintWriter pw = new PrintWriter(new FileWriter("F://fuck.txt"));
URL url = new URL("http://www.hao123.com/");
InputStreamReader isr = new InputStreamReader(url.openStream());
BufferedReader br = new BufferedReader(isr);
String result = null;
while((result = br.readLine())!=null) {
pw.println(result);
System.out.println(result);
}
br.close();
isr.close();
}catch(Exception ae) {ae.printStackTrace();}
}
}
----------------解决方案--------------------------------------------------------
那是网站的设置,人家不让你看,肯定查不了!不是程序问题,那是为了代码的安全性,你自己也可以设置自己的代码不可见,就像有的文字不让复制,这都是网站的设计问题,百度去吧
----------------解决方案--------------------------------------------------------
回复 2楼 申琪
那你打开这个网页以后右鼠键网页,查看源代码一样可以查看的呀 ----------------解决方案--------------------------------------------------------
不是所有的网站都可以的,只是部分网站,如果你想要那样的程序,很简单,百度网页模版小偷,根本思想就是DOM,只适合小型非盈利的网站使用
----------------解决方案--------------------------------------------------------