本机已经安装好hadoop2.10.0
Scala-2.12.12
jdk1.8
Standalone 集群是 Spark 自带的资源调度框架,支持分布式搭建,这里建议
搭建 Standalone 节点数为 3 台,1 台 master 节点,2 台 worker 节点,这虚
拟机中每台节点的内存至少给 2G 和 2 个 core,这样才能保证后期 Spark 基
于 Standalone 的正常运行。搭建 Standalone 集群的步骤如下:
1.登录spark官网下载spark安装包
https://spark.apache.org/downloads.html
点击“Download”找到“ Spark release archives”找到对应的 Spark 版本下
载。这里选择最新版spark-3.0.1-bin-without-hadoop.tgz 版本下载。
将下载好的 Spark 安装包上传到 Spark Master 节点,解压:
[root@node1 software]# tar -zxvf spark-3.0.1-bin-without-hadoop.tgz .
2.进入安装包的 conf 目录下,修改或者复制 slaves.template 文件
去掉 template 后缀,在新的 slaves 文件中添加从节点。保存。
[root@node1 conf]# cp slaves.template slaves
在 slaves 中配置 worker 节点:
3.复制$SPARK_HOME/conf/spark-env.sh.template 为 spark-env.sh,
修改 spark-env.sh 内容:
SPARK_MASTER_HOST:master 的 ip
SPARK_MASTER_PORT:提交任务的端口,默认是 7077
SPARK_WORKER_CORES:每个 worker 从节点能够支配的 core 的个
数
SPARK_WORKER_MEMORY:每个 worker 从节点能够支配的内存数
JAVA_HOME:java 的 home,这里需要 jdk8
4.同步到其他节点上
[root@node1 opt]# scp spark-3.0.1-bin-without-hadoop/ node2:`pwd`
[root@node1 opt]# scp spark-3.0.1-bin-without-hadoop/ node3:`pwd`
5.启动集群
进入 sbin 目录下,执行当前目录下的./start-all.sh
[root@node1 sbin]# ./start-all.sh
6.搭建客户端
将 spark 安装包原封不动的拷贝到一个新的节点上,然后,在新的节点上提交任务即可。
8080 是 Spark WEBUI 界面的端口,7077 是 Spark 任务提交的端口。