从HTML资料中抽取正文的简单方案试验结果 _HTML/CSS

从HTML文件中抽取正文的简单方案试验结果
标签：人工智能、AI、BP网络、html净化、分类、正文抽取

一、简介
本文是根据alexjc的<The Easy Way to Extract Useful Text from Arbitrary HTML>一文进行实验的结果。原文见：
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
――alexjc原文

http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
――恋花蝶翻译的中英对照版本

该文章主要内容是讲述如何利用正文相对于其他文本，正文文本与生成该正文所需的html字节码的比值较大的规律，利用神经网络识别出正文过滤过滤广告的效果。主要设计如下：

1. 解析HTML代码并记下处理的字节数。
2. 以行或段的形式保存解析输出的文本。
3. 统计每一行文本相应的HTML代码的字节数
4. 通过计算文本相对于字节数的比率来获取文本密度
5. 最后用神经网络来决定这一行是不是正文的一部分。

二、设计方案
本实验相对原本alexjc设计方案有几点修改：

1. 用RPROP（弹性BP网络）代替原文的感知器;
2. 由于原文并没有把文本长度、html字节长度做归一化，所以不采用原始文本长度、html字节长度作为特征值。相对的，对归一化后的文本长度、html字节长度，以及前向后向N行等各种组合进行试验。
3. 试验文本为任意在网上选取的10个网页，见附件。
4. 原文并没有提及，如何定义一行文本是否正文，所以这里定义了几个正文类型：
a) 内容型正文，特征是有长的连续文字段，定义这些文字段为正文；
b) 论坛型，有短的不连续的文字段，定义这些文字段为正文；
c) 论坛帖子列表型（部分试验将会对这类型进行训练查看效果，对于论坛帖子列表是否属于正文这里不做讨论……），帖子标题为正文；
d) 首页型，定义为没有正文（厄，谁能说出，新浪首页哪些是正文？）

实验环境：
1. 语言：JAVA，JRE1.5
2. 操作系统：windows xp

三、实验过程：
1. 设计实现一个三层RPROP网络（令人惊讶的是，居然在这个领域没有人写一个开源的组件，apache等的开源巨头们都对neural network不感兴趣么？）。

/*
*初始化RPROP对象
*
*本函数用于创建训练前的RPROP对象
*参数：
* int in_num 输入层个数；
* int hidden_unit_num 隐含层节点个数
* int out_num 输出层个数
*
*/
public RPROP(int in_num, int hidden_unit_num, int out_num)

/*
*初始化RPROP对象
*
*本函数用于创建训练后的RPROP对象
*参数：
* int in_num 输入层个数；
* int hidden_unit_num 隐含层节点个数
* int out_num 输出层个数
* double[][] w1 隐含层权重
* double[][] w2 输出层权重
* double[] b1 隐含层偏离值
* double[] b2 输出层偏离值
*/
public RPROP(int in_num, int hidden_unit_num, int out_num, double[][] w1, double[][] w2, double[] b1, double[] b2)

/*
*计算输出结果
*
*参数：
* double[] p 输入参数
*返回值：
* double[] 输出结果
*/
public double[] output(double[] p)

/*
*训练
*
*参数：
* double[][] p
* 训练样本集
* double[][][] t
* 期望结果集, t[i][j][0] 期望结果, t[i][j][1]误差放大系数
* double goal
* 目标误差，注意，本网络用的是“方差”作为误差判断条件
* int epochs
* 训练最大次数
*/
public void train(double[][] p, double[][][] t, double goal,int epochs)
对于这个实现，有兴趣的朋友在本文最后下载附件。

2. 选取特征值
在实验中，笔者尝试了各种特征值组合：
1) 文本密度，文本长度，html字节码长度，前后各一行的同样数值；（原文设定）
2) 文本密度，文本长度倒数（归一化），前后各两行的同样数值；
3) 文本所在的html的链接密度（全文文本长度/总链接数，用于加强判断文本类型），文本密度，文本长度/5000（归一化，大于1的当1处理，下文简称为文本长度2），前后两行相同的数值；
4) 文本所在的html的链接密度，文本密度，文本长度2，前后两行相同的数值；
5) 文本所在的html的链接密度，文本密度，文本长度2，前后一行相同的数值；
6) 文本所在的html的链接密度，文本密度，文本长度2，前一行是否正文；

并规定，网络输出结果0为非正文，1为正文。

在训练过程中，发现训练过的网络命中率大部分落在0值部分，这是由于论坛这种短文段类型的网页会导致0值过多，训练时对0值过拟合。为了避免这一点，对某一篇网页的某一行的误差乘以该网页的0值与1值数量的比值。

3. 训练集获取
见附件。这是在笔者常浏览的网页中任意抽取的10个网页。对于期望输出的定义见上文。

四、实验结果
1. 1～5的实验，任意抽取部分样本集作为训练集，对于训练集拟合的很好，但对于测试集的表现却非常糟糕（请原谅笔者并没有记录实验数据）；

这部分结果表明，以文本密度作为判断是否正文的特征值是有问题的。观察样本集的数据可以发现，即使是内容型的大段文字，也有可能文本密度很低――为了让网页变得更漂亮美观，现在有很多网站都对文字内容加了大段大段修饰用html代码……
鉴于这一点，笔者最终放弃文本密度作为特征值。而考虑到广告都是带链接的文本，相对的正文连接数则比较少，所以笔者认为，用文本长度/链接数作为特征值或许会是一个更好的选择。

2. 6的实验，表现意外的非常的好（好到差点让笔者以为终于找到完美的解决方案……）
确实，即使是在测试集部分的表现也惊人好，但实际上有一个问题：每一行的计算受上一行计算的结果影响。测试集是事先定义每一行的上一行的结果，但在实际使用时，上一行的结果是实时计算出来的，所以就会出现，在某一行出错，导致后面的结果全部出错的情况……

至此，假如仍然坚持神经网络的解决方案，或许，采用：
文本长度，文本长度链接数，上一行的结果做特征值，采用三个弱分类器的ada-boost组合分类或许会是一个好的选择。
除此之外，实际上对正文的定义对结果也是有很大的影响。实际上，假如能根据数据化的东西定义某一个类别，那么对于该类别的划分，或许其实已经是可预知的，不如直接设计阈值处理。

笔者的实验则到此为止，并放弃了神经网络这个解决方案――直接采用这些特征值进行阈值判断，并对一些特殊部分设定过滤规则，这似乎比神经网络的表现来的简单、有效……

如果有哪位朋友感兴趣，并用ada-boost进行实验，笔者将非常期待这位朋友来交流下心得：）

附件：
neralNetwork.rar 源代码
res.rar 训练集

关于html文本抽取部分，这里用的是HtmlParser，这里修改的代码就不贴出来了，有兴趣的朋友可以去：
http://htmlparser.sourceforge.net/
看看。

1 楼 zhzhl202 2010-12-05

楼主，你好，最近我也在搞网页去噪，正文抽取方面的东西。看了你提到的这篇文章和你做的实验，收获很大，可以喔有一点不明白，就是"统计每一行文本相应的HTML代码的字节数 "这个怎么理解，是不是原来的HTML文件是这样的
假如原来的html如下
<p><br><center>这里的内容很精彩</center>

那文本就应该是 “这里的内容很精彩” HMTL文本是：“<p><br><center>这里的内容很精彩</center>”
我这样理解对吗？
如果是这样的话，那怎么得到每一行内容所对应的HTML字节的长度呢？用HtmlParser应该怎么做呢？
我的邮箱是 zhzhl202@163.com MSN是 zhzhl202@Hotmail.com
thanks in advance!!!!

2 楼 hzxdark 2011-01-21

我记得我是继承htmlvisitor，在遍历标签时做具体处理判断。具体忘了，太久了。

3 楼 dachumao 2011-03-14

楼主您的代码都没标注让人太难看懂了我读了几天了还是没能理解太累人了希望能在代码的旁边附一些注释这样理解起来不至于那么困难

从HTML资料中抽取正文的简单方案 试验结果

从HTML资料中抽取正文的简单方案试验结果