提取html内容放入xml文件时空格有关问题 _HTML/CSS

提取html内容放入xml文件时空格问题

由于项目的需要，将网站上的信息抓取下来，提取出想要的信息，然后保存在xml文件里，再将xml文件上传一服务器，这个过程中，我想将原来网页上的信息的换行和空格标签保存在xml文件里去，但是直接将<br>标签放在xml文件里，显然不行，因为在xml文件里会当作xml标签，所以我就将<替换为<而>就替换为>这样就可以与xml的标签区分开来，但是空格 放在xml文件里竟然有问题，xml解析它时会抛出如下异常：

org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.?

后来看了下面的文件后，就将 改为  这样可以让xml解析器解析正确，在myeclipse下调试，看到的串显示也是正确的，不过用System.out.println()打印出来会在有 的地方显示三个问号，我再根据下面的文章，将这个串用replaceAll("\240$", " ")方法替换回空格，再存放数据库，但是我这里不行，还是显示出三个问题，后来再查了一下，原来将 替换为&nbsp;然后写入xml文件，后面由xml解析器解析出来的就成了nbsp;也正是我想要的空格，可以直接放入数据库中去。

参考：

奇怪的编码，奇怪的显示――一个关于 的故事

我们常常会解析html,解析html通常来说有两种方法，其一是直接对html进行解析，其二是将html转换到xml再解析。因为学习成本的关系，越来越倾向于使用后者来实现。第二种方法一个常用的工具就是：neko html parser，他将html转换到xml，又使用了Xerces2进行xml操作。?

于是问题开始了，在html中的&符号表示的一些特别意义，在xml中往往没有定义，比如今天我要讲的  他在html中表示non-breaking space，但是你不能用同样的方式在xml中表示，因为xml中&开头表示，可解析的实体，这个实体被DTD预先定义，而 并没有被定义，所有如果用Xerces2来解析出现这样字符的xml文件（当然，这里假设你也没有自己预先定义），会抛出如下异常：?
org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.?
一般给出如下的解决方案：使用  这又是什么道理呢？因为这是HTML ISO-8859-1 Reference 定义的规范，如下：?
Character Entity Number Entity Name Description?
??????????  ?   non-breaking space?
neko html parser也这是使用的这样的方案，所以当解析这样一句html的时候:?
<td>?
??? big black bear bit back the big black bug. ?
</td>?

就bei neko html parser替换成了?

<td>?
??? big black bear bit back the big black bug. ?
</td>?

如果这样就完了，就不会有今天这篇文章了。?
但是替换之后，通过xml解析输出，显示的不是一个空格而是一个？，最要人命的地方了是这个？并不是ascii 中的063d。所以当我们通过getTextContent()方法的时候，我们得到的是：?
big black bear bit back the big black bug.??

在实际应用中，当然需要出去这个？，于是我们打算使用replaceAll("\\?$", "")来替换掉这个？，但是你错了，你被你的眼睛骗了，这时你会发现根本不起作用你应该是用replaceAll("\240$", "")，240是160的八进制数。?

后记：

原来让xml不解析大小于号等xml关键字符，可以用：

CDATA 部分中的所有内容都会被解析器忽略。

CDATA 部分由 "<![CDATA[" 开始，由 "]]>" 结束：

详见：http://www.w3school.com.cn/xml/xml_cdata.asp

提取html内容放入xml文件时空格有关问题

奇怪的编码，奇怪的显示――一个关于&nbsp;的故事

奇怪的编码，奇怪的显示――一个关于的故事