当前位置: 代码迷 >> 综合 >> Ubuntu + Hadoop2.7.3伪分布搭建
  详细解决方案

Ubuntu + Hadoop2.7.3伪分布搭建

热度:30   发布时间:2023-12-04 16:14:31.0

下载

Hadoop-2.7.3 JDK-1.8.152网盘下载:
链接:https://pan.baidu.com/s/1WxOaetwJ49fsouZ01xejlw
提取码:ihb5

1.在virtualbox上设置共享目录

将 JDK 和 hadoop 压缩包上传到Ubuntu:
参考链接:https://blog.csdn.net/qq_38038143/article/details/83017877
在这里插入图片描述

2.JDK安装

  1. 在 /usr/local/ 下创建目录 java,将 JDK 解压到 java 目录,执行命令:
sudo tar -zxvf /usr/local/lib/jdk-8u152-linux-x64.tar.gz  -C /usr/local/java/

查看 java目录:
在这里插入图片描述

  1. 配置环境变量:
    执行命令:
sudo vim /etc/profile

在文件末尾添加以下内容:

JAVA_HOME=/usr/local/java/jdk1.8.0_152
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME CLASSPATH PATH

使配置生效:

source /etc/profile
  1. 查看JDK配置是否成功:
    在这里插入图片描述
    JDK安装完成。

3.hadoop安装

3.1. 解压hadoop
执行命令,分别为:解压hadoop、修改目录名称、修改目录拥有者(根据自己linux用户)

sudo tar -zxvf /usr/local/lib/hadoop-2.7.3.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-2.7.3  /usr/local/hadoop
sudo chown hadoop /usr/local/hadoop

3.2. 配置 JDK 路径
进入目录:
在这里插入图片描述

修改文件:hadoop-env.sh
将第25行的 export JAVA_HOME=${JAVA_HOME} 修改为:
在这里插入图片描述

3.3. 配置 Hadoop 环境变量:
在文件末尾添加,修改文件:

vim ~/.bashrc
export JAVA_HOME=/usr/local/java/jdk1.8.0_152
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使生效:

source ~/.bashrc

3.4. 查看Hadoop版本
在这里插入图片描述
Hadoop安装成功。

3.5. Hadoop单机实例运行:
进入目录:
在这里插入图片描述

创建目录,并将配置文件作为输入文件:

mkdir ./input
cp ./etc/hadoop/*.xml  ./input

执行运行命令:

bin/hadoop  jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar  grep input/  ./output  'dfs[a-z.]+'

查看输出结果:
在这里插入图片描述
单机模式运行实例成功。

4.Hadoop伪分布

4.1 配置IP映射:
修改文件:sudo vim /etc/hosts
在文件中添加:(master 为主机名,根据自身linux设置)

127.0.0.1  master

重启网路:

sudo /etc/init.d/networking  restart

4.2 免密登录:
安装ssh:

sudo  apt-get install  openssh-server

生成 ~/.ssh目录:

ssh  master
# 输入密码登录后,执行exit退出
exit

执行命令,生成公钥、密钥:

ssh-keygen -t rsa    #一直回车
cat  ~/.ssh/id_rsa.pub  >>  ~/.ssh/authorized_keys

再次执行登录命令:

ssh  master

若不再使用命令即可登录,即免密登录成功。
在这里插入图片描述

4.3 修改Hadoop配置文件:
注:以下配置文件中的master是根据4.1 IP映射配置的127.0.0.1,将下列所有的master根据4.1中写的主机名修正。
4.3.1 core-site.xml

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>注释</description></property><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property>
</configuration>

4.3.2 hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/dfs/data</value></property>
</configuration>

4.3.3 mapred-site.xml
由于配置文件只存在mapred-site.xml.template,所以先复制mapred-site.xml:

cp  mapred-site.xml.template  mapred-site.xml

在mapted-site.xml中添加:

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobtracker.address</name><value>master:9001</value></property>
</configuration>

4.3.4 yarn-site.xml

<configuration><!-- Site specific YARN configuration properties --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>master:8099</value></property></configuration>

4.4 启动Hadoop

4.4.1 创建目录:

cd /usr/local/hadoop/
mkdir -p  dfs/{name,data}  tmp

4.4.2 格式化

hdfs namenode -format

结果:
在这里插入图片描述
出现 0 则成功,1则失败。
注:若失败,检查上述配置是否错误,修正后,需要删除 dfs、tmp目录,然后新建dfs、tmp目录,再执行格式化命令。

4.4.3 启动HDFS

start-dfs.sh

在这里插入图片描述
jps 查询:
在这里插入图片描述
浏览器访问:localhost:50070
在这里插入图片描述
4.4.4 启动Yarn

start-yarn.sh

在这里插入图片描述
jps 查询:
在这里插入图片描述

伪分布实例测试:
在这里插入图片描述
执行命令:

cd /usr/local/hadoop/
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

在这里插入图片描述
查看输出结果:
在这里插入图片描述

浏览器访问:master:8099/cluster
在这里插入图片描述
伪分布安装成功。