准备
1、下载hadoop(自行到官网下载对应版本)
2、安装了JDK(网上也有很多教程,自行查阅,也可以查看我另一篇文章:在Ubuntu14.04下配置Hadoop的两种模式:本地模式、伪分布模式)
3、hadoop安装在Windows的工具,网上有很多,可自行查阅下载。
配置流程
一、配置环境变量
解压好Hadoop,添加环境变量
添加HADOOP_HOME系统变量
-
变量名:
HADOOP_HOME
-
-
变量值:
D:\
hadoop-2
.7
.7 # 改为你自己的路径
编辑path环境变量
添加Hadoop的bin路径:D:\hadoop-2.7.7\bin
二、修改Hadoop配置文件
修改D:/hadoop-2.7.7/etc/hadoop目录下的配置文件
1.core-site.xml
-
<configuration>
-
<property>
-
<name>fs.default.name
</name>
-
<value>hdfs://localhost:9000
</value>
-
</property>
-
</configuration>
2.mapred-site.xml
-
<configuration>
-
<property>
-
<name>mapreduce.framework.name
</name>
-
<value>yarn
</value>
-
</property>
-
</configuration>
3.在hadoop-2.7.7新建文件夹data,并在里面新建datanode、namenode文件夹
4.hdfs-site.xml
-
<configuration>
-
<!-- 这个参数设置为1,因为是单机版hadoop -->
-
<property>
-
<name>dfs.replication
</name>
-
<value>1
</value>
-
</property>
-
<property>
-
<name>dfs.permissions
</name>
-
<value>false
</value>
-
</property>
-
<property>
-
<name>dfs.namenode.name.dir
</name>
-
<value>D:\hadoop-2.7.7\data\namenode
</value>
-
</property>
-
<property>
-
<name>fs.checkpoint.dir
</name>
-
<value>D:\hadoop-2.7.7\data\snn
</value>
-
</property>
-
<property>
-
<name>fs.checkpoint.edits.dir
</name>
-
<value>D:\hadoop-2.7.7\data\snn
</value>
-
</property>
-
<property>
-
<name>dfs.datanode.data.dir
</name>
-
<value>D:\hadoop-2.7.7\data\datanode
</value>
-
</property>
-
</configuration>
5.yarn-site.xml
-
<configuration>
-
<!-- Site specific YARN configuration properties -->
-
<property>
-
<name>yarn.nodemanager.aux-services
</name>
-
<value>mapreduce_shuffle
</value>
-
</property>
-
<property>
-
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class
</name>
-
<value>org.apache.hadoop.mapred.ShuffleHandler
</value>
-
</property>
-
</configuration>
6.
使用 cmd 创建JDK软连接,因为我的JDK路径名中存在空格,如果没有空格的不用操作以下命令
命令:mklink /J D:\hadoop-2.7.7\jdk "C:\Program Files\Java\jdk1.7.0_11"
再修改D:/hadoop-2.7.7/etc/hadoop/hadoop-env.cmd配置文件
找到"set JAVA_HOME=%JAVA_HOME%",把它注释掉,在下面添加为"set JAVA_HOME=D:\hadoop-2.7.7\jdk"
7. bin目录替换
把Hadoop目录下的bin目录文件替换为之前从网上下载下来的工具。
8. 格式化hdfs文件系统
执行D:\hadoop-2.7.7\bin\hdfs.cmd namenode -format
9.启动Hadoop
执行D:\hadoop-2.7.7\sbin\start-all.cmd。
异常问题
1、启动服务失败、文件名、目录名不正确问题?
是因为hadoop高版本与Windows不兼容,换成2.7.7版本即可解决这个问题。
参考资料
Windows10下配置大数据开发环境(1) - 安装Hadoop