hadoop-env.sh
配置hadoop中的 hadoop-env.sh(后边很多框架配置环境都是xxx.env.sh)
配置hadoop的环境变量的,一般有Java home,hadoopconfdir等这些软件、配置目录,有运行过程中使用的变量,如hadoop栈大小配置,java 运行内存大小配置等等。
用工具直接打开进行配置即可;
默认是已经开启的,如果前面有#,只需要去掉即可;
core-site.xml
配置hadoop的访问目录(配置ip主机和端口号;提供出来进行访问);修改配置文件 etc/hadoop/core-site.xml
用于定义系统级别的参数,如HDFS URL、Hadoop的临时目录等;
Parameter |
Value |
Notes |
fs.defaultFS |
NameNode URI |
hdfs://host:port/ |
io.file.buffer.size |
131072 |
Size of read/write buffer used in SequenceFiles. |
其中,fs.defaultFS表示要配置的默认文件系统,io.file.buffer.size表示设置buffer的大小。
最简单的方法,使用工具直接找到文件打开进行配置;
在这个里边还有很多的配置信息,需要我们去官方找过来配置;
.配置元数据和block块;其实就是去配置我们的hdfs中数据存储的block块;
hdfs-site.xml
HDFS也是采用块管理的,但是比较大,在Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128M;他就是把一个大的文件分割成多个128M的block块来分布式存储数据;
HDFS的元数据包含三部分:
抽象目录树
数据和块映射关系
数据块的存储节点
元数据有两个存储位置:
内存:1、2、3
3在集群启动时,Datanode 通过心跳机制向Namenode发送。
磁盘:1、2
集群启动时需要将磁盘中的元数据加载到内存中,所以磁盘中的元数据不适宜过多。
元数据的存储格式:data/hadoopdata/目录下有三个文件夹
data
数据的真实存储目录,即datanode存储数据的存储目录
name:元数据存储目录
namenode存储元数据的存储目录
需要对/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml 其实就是hadoop的文件系统进行配置;
mapred-site.xml
配置计算框架:mapreduce框架; 需要对这个文件进行修改: mapred-site.xml
- hadoop2.x中没有这个文件;只有 vi mapred-site.xml.template 这个临时文件;需要对他的后缀进行修改;
- mapred-site.xml.template mapred-site.xml 修改文件的后缀名字;
yarn-site.xml
对yarn的资源调度的配置: resourcemanager(资源调度管理者--针对的是nameNode) 和nodemanager (节点管理者--针对的是我们具体的节点) 主要是在 yarn-site.xml中进行配置:
slaves
配置从节点:也就是指定那些节点是从节点:就是这个文件:slaves
这个地方把原来的localhost删除;加入你的从节点即可;
到此hadoop的配置基本完成;就可以把这个分发给从节点中去;
发分主节点的hadooop内容给从节点
把配置好的hadoop的内容发分给hadoop02中的usr/local目录中;
scp -r /usr/local/hadoop-2.7.3/ hadoop02:/usr/local/
把配置好的hadoop的内容分发给hadoop03中的usr/local目录中;
scp -r /usr/local/hadoop-2.7.3/ hadoop03:/usr/local/
hadoop配置完成