eclipse3.7.2配置hadoop1.0.3插件

[url]http://blog.csdn.net/yaoyaminaco/article/details/7655437[/url]

1. 安装插件

准备程序：

eclipse-3.7.2

hadoop-1.0.3-eclipse-plugin.jar

将hadoop-1.0.3-eclipse-plugin.jar 复制到eclipse/plugins目录下，重启eclipse。

2. 打开MapReduce视图

Window -> Open Perspective -> Other 选择Map/Reduce.

3. 添加一个MapReduce环境

在eclipse下端，控制台旁边会多一个Tab，叫“Map/Reduce Locations”，在下面空白的地方点右键，选择“New Hadoop location...”.

在弹出的对话框中填写如下内容：

Location name（名字）

Map/Reduce Master（Job Tracker的IP和端口，根据mapred-site.xml中配置的mapred.job.tracker来填写）

DFS Master（Name Node的IP和端口，根据core-site.xml中配置的fs.default.name来填写）

4. 使用eclipse对HDFS内容进行修改

经过上一步骤，左侧“Project Explorer”中应该会出现配置好的HDFS，点击右键，可以进行新建文件夹、删除文件夹、上传文件、下载文件、删除文件等操作。

注意：每一次操作完在eclipse中不能马上显示变化，必须得刷新一下。?

5. 创建MapReduce工程

5.1 配置Hadoop路径

Window -> Preferences 选择 “Hadoop Map/Reduce”，点击“Browse...”选择Hadoop文件夹的路径。
这个步骤与运行环境无关，只是在新建工程的时候能将hadoop根目录和lib目录下的所有jar包自动导入。

5.2 创建工程

File -> New -> Project 选择“Map/Reduce Project”，然后输入项目名称，创建项目。插件会自动把hadoop根目录和lib目录下的所有jar包导入。

5.3 创建Mapper或者Reducer

File -> New -> Mapper 创建Mapper，自动继承mapred包里面的MapReduceBase并实现Mapper接口。
注意：这个插件自动继承的是mapred包里旧版的类和接口，新版的Mapper得自己写。

Reducer同理。

6. 在eclipse中运行WordCount程序

6.1 导入WordCount源代码

[java]?view plaincopyprint?

import?java.io.IOException;??
?import?java.util.StringTokenizer;??
???
?import?org.apache.hadoop.conf.Configuration;??
?import?org.apache.hadoop.fs.Path;??
?import?org.apache.hadoop.io.IntWritable;??
?import?org.apache.hadoop.io.LongWritable;??
?import?org.apache.hadoop.io.Text;??
?import?org.apache.hadoop.mapreduce.Job;??
?import?org.apache.hadoop.mapreduce.Mapper;??
?import?org.apache.hadoop.mapreduce.Reducer;??
?import?org.apache.hadoop.mapreduce.lib.input.FileInputFormat;??
?import?org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;??
???
?public?class?WordCount?{??
?????public?static?class?TokenizerMapper?extends?Mapper<LongWritable,?Text,?Text,?IntWritable>{??
???
?????????private?final?static?IntWritable?one?=?new?IntWritable(1);??
?????????private?Text?word?=?new?Text();??
???
?????????public?void?map(LongWritable?key,?Text?value,?Context?context)??
?????????????????throws?IOException,?InterruptedException?{??
?????????????StringTokenizer?itr?=?new?StringTokenizer(value.toString());??
?????????????while?(itr.hasMoreTokens())?{??
?????????????????word.set(itr.nextToken());??
?????????????????context.write(word,?one);??
?????????????}??
?????????}??
?????}??
???
?????public?static?class?IntSumReducer?extends?Reducer<Text,?IntWritable,?Text,?IntWritable>?{??
?????????private?IntWritable?result?=?new?IntWritable();??
???
?????????public?void?reduce(Text?key,?Iterable<IntWritable>?values,?Context?context)??
?????????????????throws?IOException,?InterruptedException?{??
?????????????int?sum?=?0;??
?????????????for?(IntWritable?val?:?values)?{??
?????????????????sum?+=?val.get();??
?????????????}??
?????????????result.set(sum);??
?????????????context.write(key,?result);??
?????????}??
?????}??
???
?????public?static?void?main(String[]?args)?throws?Exception?{??
?????????Configuration?conf?=?new?Configuration();??
?????????if?(args.length?!=?2)?{??
?????????????System.err.println("Usage:?wordcount??");??
?????????????System.exit(2);??
?????????}??
???
?????????Job?job?=?new?Job(conf,?"word?count");??
?????????job.setJarByClass(WordCount.class);??
?????????job.setMapperClass(TokenizerMapper.class);??
?????????job.setReducerClass(IntSumReducer.class);??
?????????job.setMapOutputKeyClass(Text.class);??
?????????job.setMapOutputValueClass(IntWritable.class);??
?????????job.setOutputKeyClass(Text.class);??
?????????job.setOutputValueClass(IntWritable.class);??
???
?????????FileInputFormat.addInputPath(job,?new?Path(args[0]));??
?????????FileOutputFormat.setOutputPath(job,?new?Path(args[1]));??
???
?????????System.exit(job.waitForCompletion(true)???0?:?1);??
???
?????}??
???
?}??

6.1.1 map过程

Map过程需要继承org.apache.hadoop.mapreduce包中Mapper类，并重写其map方法。通过在map方法中添加两句把key值和value值输出到控制台的代码，可以发现map方法中value值存储的是文本文件中的一行（以回车符为行结束标记），而key值为该行的首字母相对于文本文件的首地址的偏移量。然后StringTokenizer类将每一行拆分成为一个个的单词，并将<word,1>作为map方法的结果输出，其余的工作都交有MapReduce框架处理。

6.1.2 reduce过程

Reduce过程需要继承org.apache.hadoop.mapreduce包中Reducer类，并重写其reduce方法。Map过程输出<key,values>中key为单个单词，而values是对应单词的计数值所组成的列表，Map的输出就是Reduce的输入，所以reduce方法只要遍历values并求和，即可得到某个单词的总次数。

6.1.3 执行mapreduce任务

在MapReduce中，由Job对象负责管理和运行一个计算任务，并通过Job的一些方法对任务的参数进行相关的设置。此处设置了使用TokenizerMapper完成Map过程中的处理和使用IntSumReducer完成Combine和Reduce过程中的处理。还设置了Map过程和Reduce过程的输出类型：key的类型为Text，value的类型为IntWritable。任务的输出和输入路径则由命令行参数指定，并由FileInputFormat和FileOutputFormat分别设定。完成相应任务的参数设定后，即可调用job.waitForCompletion()方法执行任务。

6.2 创建输入文件

对于所有的mapreduce工程，我们都需要有相关的输入文件作为input，就当前的demo而言，我们选择在hdfs根目录下创建:

[plain]?view plaincopyprint?

$?$HADOOP_HOME/bin/hadoop?fs?-mkdir?/mapreduce??
$?$HADOOP_HOME/bin/hadoop?fs?-mkdir?/mapreduce/wordcount??
$?$HADOOP_HOME/bin/hadoop?fs?-mkdir?/mapreduce/wordcount/input??
$?$HADOOP_HOME/bin/hadoop?fs?-mkdir?/mapreduce/wordcount/output??

然后在~/Documents下创建文本文档inputfile.txt文件作为输入文件，其中文件内容为：

[plain]?view plaincopyprint?

hello?yuan?ye?hello?great?great?yuan?yuan?yuan??

把txt文件拷贝至hdfs的刚才新创建的input路径下：

[plain]?view plaincopyprint?

$?$HADOOP_HOME/bin/hadoop?fs?-cp?~/Documents/inputfile.txt?/mapreduce/wordcount/input??

或者直接使用eclipse中的上传功能,也可以把文件上传到input路径下。

6.3 配置运行参数

Run As -> Open Run Dialog... 选择WordCount程序，在Arguments中配置运行参数：/mapreduce/wordcount/input /mapreduce/wordcount/output/1

分别表示HDFS下的输入目录和输出目录，其中输入目录中有几个文本文件，输出目录必须不存在。

6.4 运行

Run As -> Run on Hadoop 选择之前配置好的MapReduce运行环境，点击“Finish”运行。

控制台会输出相关的运行信息。

6.5 查看运行结果

在输出目录/mapreduce/wordcount/output/1中，可以看见WordCount程序的输出文件。除此之外，还可以看见一个logs文件夹，里面会有运行的日志。

运行结果为:

[plain]?view plaincopyprint?

great???2??
hello???2??
ye??1??
yuan????4 ?

错误：Permission denied: access=WRITE, inode="root":root:supergroup:rwxr-xr-x

./bin/hadoop fs -chown XXX

或者

./bin/hadoop fs -chmod XXX

错误：?Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0700

解决方法是，修改/hadoop-1.0.2/src/core/org/apache/hadoop/fs/FileUtil.java里面的checkReturnValue，注释掉即可（有些粗暴，在Window下，可以不用检查）：

......
??private static void checkReturnValue(boolean rv, File p, 
???????????????????????????????????????FsPermission permission
???????????????????????????????????????) throws IOException {
????/**
	if (!rv) {
      throw new IOException("Failed to set permissions of path: " + p + 
                            " to " + 
                            String.format("%04o", permission.toShort()));
    }
	**/
??}
......
view rawFileUtil.javaThis Gist?brought to you by?GitHub.

重新编译打包hadoop-core-1.0.2.jar，替换掉hadoop-1.0.2根目录下的hadoop-core-1.0.2.jar即可。

eclipse3.7.2配备hadoop1.0.3插件

1. 安装插件

2. 打开MapReduce视图

3. 添加一个MapReduce环境

4. 使用eclipse对HDFS内容进行修改

5. 创建MapReduce工程

5.1 配置Hadoop路径

5.2 创建工程

5.3 创建Mapper或者Reducer

6. 在eclipse中运行WordCount程序

6.1 导入WordCount源代码

6.1.1 map过程

6.1.2 reduce过程

6.1.3 执行mapreduce任务

6.2 创建输入文件

6.3 配置运行参数

6.4 运行

6.5 查看运行结果