nutch 为何物,在这儿我就不做介绍了,因为google比我管用哈。
今天我来介绍一下,nutch1.2更新版本的eclipse导入进入编译开发,为二次开发nutch做准备。
主要有以下几步:
(一)安装cygwin,此步骤也很重要,不安装的话,会报环境错误。具体的安装过程google一下就ok了。
(二)下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project
from existing source",指向nutch目录。
(三) 下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf"。
(四)继续操作:切换到"Order and Export"找到"conf",把它移到顶端。不用选择它。
(五)到"Source"将output folder设置为Nutch /bin/tmp_build,点击finish完成导入。
(六) 配置,配置文件:nutch-default.xml,nutch-site.xml,crawl-urlfilter.txt。
1) nutch-default.xml
修改此处:
<property>
? <name>plugin.folders</name>
? <value>./src/plugin</value>
? <description>Directories where nutch plugins are located.? Each
? element may be a relative or absolute path.? If absolute, it is used
? as is.? If relative, it is searched for on the classpath.</description>
</property>
2) nutch-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
??? <!-- Put site-specific property overrides in this file. -->
<configuration>
??? <property>
??????? <name>http.agent.name</name>
??????? <value>wenda.tianya.cn</value>
??????? <description>HTTP ‘User-Agent’ request header. </description>
??? </property>
??? <property>
??????? <name>http.agent.description</name>
??????? <value>wenda.tianya.cn</value>
??????? <description>Further description of our bot- this text is used in the
??????????? User-Agent header.
? </description>
??? </property>
??? <property>
??????? <name>http.agent.url</name>
??????? <value>http://wenda.tianya.cn/wenda/</value>
??????? <description>A URL to advertise in the User-Agent header.
??????? </description>
??? </property>
??? <property>
??????? <name>http.agent.email</name>
??????? <value>lsoba@gmail.com</value>
??????? <description>An email address to advertise in the HTTP ‘From’ reques
??????????? header and User-Agent header.
? </description>
??? </property>
</configuration>
3)crawl-urlfilter.txt
具体自己的情况而定 (可以google一下用法,网上有很清晰的说明)
(七) 创建urls目录 以及copy nutch-1.2.jar与nutch-1.2.job 到工作目录的要目录
(八) 运行crawl 可执行类
?????? 配置运行环境:
?????? Program arguments:
?????? urls -dir f:/index -depth 3 -topN 300
?????? VM arguments:
?????? -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
?
欢迎大家拍砖!
详细解决方案
生手使用帮助:nutch 1.2 导入eclipse
热度:127 发布时间:2016-04-23 12:29:15.0
相关解决方案
- eclipse struts2找不到action!调了一个晚下了
- Eclipse + Tomcat Debug時很慢,该怎么解决
- eclipse+tomcat6.0+oracle 10g配置数据库连接池的异常
- eclipse ee版本 怎么新建和发布 web project
- eclipse 运用URL连接出错,求解
- eclipse jee tomcat警告有关问题
- eclipse 提醒 configure build path
- !hadoop 0.21.0 eclipse 3.7 win7,点击run on hadoop报错
- JDBC MYSQL 驱动加载失败 JSP DAO ECLIPSE,该怎么解决
- Eclipse 报错org.apache.catalina.LifecycleException: Failed to start component。该怎么解决
- eclipse 老崩溃 错误异常如下
- Eclipse JSP调用Servlet的有关问题
- eclipse 怎么发布 Dynamic web project到Tomcat
- eclipse 经典版,最新稳定版是多少?解决方法
- 【文件分享】Eclipse Plug-in资料分享
- eclipse 在线安装 birt,该怎么解决
- 现下公司里开发用的 Eclipse + MyEclipse + Tomcat + JDK 都是什么版本的
- Eclipse plugin/RCP开发资料大整理
- 现时公司里开发用的 Eclipse + MyEclipse + Tomcat + JDK 都是什么版本的
- j2me eclipse antenna打包混合出错了,该怎么处理
- Eclipse + wtk下,如何加com.nokia.mid.ui
- Eclipse 混淆包错误有关问题
- Eclipse 调试 J2ME 出现有关问题了。
- eclipse 3.2中J2ME 开发配置有关问题
- eclipse wtk 2.2整和有关问题
- eclipse 集成 javaAPI 的有关问题
- eclipse class not found 愁死了解决方法
- eclipse 没法打包资源文件
- 急问:S60,eclipse,打开模拟器总是提示“unhandled exception.Close application?该如何解决
- 请教怎么在 Eclipse 中配置M3G 包以 支持 J2ME 的 3D 游戏开发?