小弟看到一个这样的网址,正文提纯的演示,非常好,提取新闻,博客,论坛(带楼层一起提取),非常准。
http://61.128.196.27/txt/
大家可以看看,有谁做过类似的这样的东西,给小弟说说,一些成功的经验俺想学。
园子里的蛙蛙的正文提纯看过了,只是只对大片文字的新闻比较有效。对论坛不行。
现在贴出一些论坛,兄弟们可以去这个链接上试试效果哦
http://bbs.pcbeta.com/thread-437830-1-1
http://bbs.iwindows7.com/thread-7741-1-1
http://bbs.vista123.com/thread-161747-1-1
http://softbbs.pconline.com.cn/9960486
http://bbs.realqwh.cn/read-htm-tid-69019
http://bbs.xtbeta.com/read.php?tid=7199
http://bbs.itjmz.com/read.php?tid=61261
http://bbs.windows7en.com/thread-8828-1-1
http://bbs.kafan.cn/thread-443359-1-1
http://www.in9.cn/read.php?tid=435443
http://bbs.zdnet.com.cn/thread-1152490-1-1
http://forum.51nb.com/thread-799684-1-1
http://www.coolaler.com/~coolaler/forum/showthread.php?p=2304154
http://softbbs.it168.com/thread-669601-0-1-1
http://www.kpfans.com/bbs/thread-443404-1-1
http://bbs.jujumao.com/dispbbs.php?boardid=119&replyid=2658388&id=259072&skin=0&page=1&star=1
http://www.xtzj.com/read-htm-tid-379497
http://www.mydianping.com/bbsinfo100786-53612
http://bbs.bitscn.com/210519
http://www.tomatoll.com/thread-45570-1-1
http://bbs.cfan.com.cn/thread-860583-1-1
http://baike.360.cn/3232114/22741520
http://bbs.win7c.com/thread-2179-1-1
http://www.win75.cn/thread-2175-1-1
http://win.chinaunix.net/bbs/thread-26215-1-1
http://bbs.crsky.com/read.php?tid=1590643
http://www.cnaxh.com/forum/showtopic.aspx?topicid=719&forumpage=1&onlyauthor=1
http://bbs.ws2008.net/showtopic.aspx?forumid=5&topicid=807&go=next
http://wenda.tianya.cn/wenda/thread?tid=6238094d355823a7
http://itbbs.pconline.com.cn/diy/9942640
http://bbs.xtghost.com/read.php?tid=4848
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=Windows&ID=89065&start=31&listType=1
http://bbs.51vip.net/dispbbs_4_1928_0_1?boardid=4&id=1928&move=next
http://bbs.levelup.cn/showtree.aspx?topicid=768957&postid=15854936
http://bbs.ctocio.com.cn/thread-7843895-1-1
http://tianyi.it168.com/thread-555477-1-1
http://www.luobo.cc/read.php?tid=4875266%27
http://bbs.cngho.com/viewthread.php?tid=30043
http://bbs.mspil.edu.cn/BBS/dispbbs_107_142696_1.htm
http://51nb.com/forum/thread-797114-1-1
------解决方案--------------------------------------------------------
不是很准,要对具体网页具体分析
------解决方案--------------------------------------------------------
不错,收藏了。
------解决方案--------------------------------------------------------
不准,这个还是需要写相关的匹配方法。
不是一个万能,或者说智能的东西——至少我现在这么认为的。
比如说,你让它提纯:news.baidu.com试试,或者http://finance.sina.com.cn/stock/试试,看他提纯出来的是什么~
当然,还要说明点是,对于论坛的提取,效果已经比较显著
我想是不是选择文字多的,链接少的那些进行匹配——感觉这个提纯的工具就是这么比较的...
------解决方案--------------------------------------------------------
不是很准?是真的很准哦?
楼伤兄弟,你不要拿index页去提纯,只拿具体页面就才有意义的。呵呵
他这个比较吊了,适配了很多的论坛
选文字多的:?????页面上的文字都很多哦?有每个楼层的个人信息和广告啥的
我也可能一个楼就一句哦?
------解决方案--------------------------------------------------------
top
难道做这类采集,抽取正文的兄弟很少么?
------解决方案--------------------------------------------------------
请问楼主的正文抽取程序搞定了吗 能不能发我一份参考一下 非常感谢!!
------解决方案--------------------------------------------------------