Ubuntu + Hadoop2.7.3伪分布搭建_综合

下载

Hadoop-2.7.3 JDK-1.8.152网盘下载：
链接：https://pan.baidu.com/s/1WxOaetwJ49fsouZ01xejlw
提取码：ihb5

1.在virtualbox上设置共享目录

将 JDK 和 hadoop 压缩包上传到Ubuntu：
参考链接：https://blog.csdn.net/qq_38038143/article/details/83017877
在这里插入图片描述

2.JDK安装

在 /usr/local/ 下创建目录 java，将 JDK 解压到 java 目录，执行命令：

sudo tar -zxvf /usr/local/lib/jdk-8u152-linux-x64.tar.gz  -C /usr/local/java/

查看 java目录：
在这里插入图片描述

配置环境变量：
执行命令：

sudo vim /etc/profile

在文件末尾添加以下内容：

JAVA_HOME=/usr/local/java/jdk1.8.0_152
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME CLASSPATH PATH

使配置生效：

source /etc/profile

查看JDK配置是否成功：

JDK安装完成。

3.hadoop安装

3.1. 解压hadoop
执行命令，分别为：解压hadoop、修改目录名称、修改目录拥有者（根据自己linux用户）

sudo tar -zxvf /usr/local/lib/hadoop-2.7.3.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-2.7.3  /usr/local/hadoop
sudo chown hadoop /usr/local/hadoop

3.2. 配置 JDK 路径
进入目录：
在这里插入图片描述

修改文件：hadoop-env.sh
将第25行的 export JAVA_HOME=${JAVA_HOME} 修改为：
在这里插入图片描述

3.3. 配置 Hadoop 环境变量：
在文件末尾添加，修改文件：

vim ~/.bashrc

export JAVA_HOME=/usr/local/java/jdk1.8.0_152
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使生效：

source ~/.bashrc

3.4. 查看Hadoop版本
在这里插入图片描述
Hadoop安装成功。

3.5. Hadoop单机实例运行：
进入目录：
在这里插入图片描述

创建目录，并将配置文件作为输入文件：

mkdir ./input
cp ./etc/hadoop/*.xml  ./input

执行运行命令：

bin/hadoop  jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar  grep input/  ./output  'dfs[a-z.]+'

查看输出结果：
在这里插入图片描述
单机模式运行实例成功。

4.Hadoop伪分布

4.1 配置IP映射：
修改文件：sudo vim /etc/hosts
在文件中添加：（master 为主机名，根据自身linux设置）

127.0.0.1  master

重启网路：

sudo /etc/init.d/networking  restart

4.2 免密登录：
安装ssh：

sudo  apt-get install  openssh-server

生成 ~/.ssh目录：

ssh  master
# 输入密码登录后，执行exit退出
exit

执行命令，生成公钥、密钥：

ssh-keygen -t rsa    #一直回车
cat  ~/.ssh/id_rsa.pub  >>  ~/.ssh/authorized_keys

再次执行登录命令：

ssh  master

若不再使用命令即可登录，即免密登录成功。
在这里插入图片描述

4.3 修改Hadoop配置文件：
注：以下配置文件中的master是根据4.1 IP映射配置的127.0.0.1，将下列所有的master根据4.1中写的主机名修正。
4.3.1 core-site.xml

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>注释</description></property><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property>
</configuration>

4.3.2 hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/dfs/data</value></property>
</configuration>

4.3.3 mapred-site.xml
由于配置文件只存在mapred-site.xml.template，所以先复制mapred-site.xml：

cp  mapred-site.xml.template  mapred-site.xml

在mapted-site.xml中添加：

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobtracker.address</name><value>master:9001</value></property>
</configuration>

4.3.4 yarn-site.xml

<configuration><!-- Site specific YARN configuration properties --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>master:8099</value></property></configuration>

4.4 启动Hadoop

4.4.1 创建目录：

cd /usr/local/hadoop/
mkdir -p  dfs/{name,data}  tmp

4.4.2 格式化

hdfs namenode -format

结果：
在这里插入图片描述
出现 0 则成功，1则失败。
注：若失败，检查上述配置是否错误，修正后，需要删除 dfs、tmp目录，然后新建dfs、tmp目录，再执行格式化命令。

4.4.3 启动HDFS

start-dfs.sh

在这里插入图片描述
jps 查询：

浏览器访问：localhost:50070

4.4.4 启动Yarn

start-yarn.sh

在这里插入图片描述
jps 查询：

伪分布实例测试：
在这里插入图片描述
执行命令：

cd /usr/local/hadoop/
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

在这里插入图片描述
查看输出结果：

浏览器访问：master:8099/cluster
在这里插入图片描述
伪分布安装成功。