Spark HA高可用部署

时间：2018-12-04 11:23:35 收藏：0 阅读：10140

1.说明：

Spark Standalone 集群是Master--Slaves架构的集群模式，和大部分的Master--Slaves 结构集群一样，存在着Master单点故障的问题。Spark提供了两种解决方案去解决这个单点故障的问题；

方案一：基于文件系统的单点恢复

主要用于开发或测试环境，spark提供目录保存spark Application 和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/strart--master.sh），恢复已运行的spark Application 和 worker 的注册信息。（简单说就是需要自己亲自再去启动master）

方案二：基于zookeeper的 Standby Masters

主要用于生产模式。其基本原理是通过zookeeper来选举一个Master，其他的Master处于Standby状态。将spark集群连接到同一个zookeeper实例并启动多个Master，利用zookeeper提供的选举和状态保存功能，可以使一个Master被选举成活着的master，而其他Master处于Standby状态。如果现任Master宕机，另一个Master会通过选举产生并恢复到旧的Master状态，然后恢复状态。整个恢复过程可能要1-2分钟。

2.基于zookeeper的spark HA 高可用集群部署

该HA方案使用起来很简单，首先需要搭建一个zookeeper集群然后启动zookeeper集群，最后在不同节点上启动Master。具体配置如下：

（1）vim spark-env.sh

注释掉export SPARK_MASTER_HOST=hdp--node--01

（2）在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，内容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER - Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181 -Dspark.deploy.zookeeper.dir=/spark"

参数说明：

1.spark.deploy.recoveryMode：恢复模式（Master 重新启动的模式）：有三种：（1）:zookeeper（2）:FileSystem（3）:none

2.spark.deploy.zookeeper.url：zookeeper的server地址

3.spark.deploy.zookeeper.dir：保存集群元数据信息的文件，目录。包括Worker，Driver和Application。

注意：

在普通模式下启动spark集群，只需要在主机上面执行start-all.sh就可以了。

在高可用模式下启动spark集群，现需要在任意一台节点上启动start-all，然后在另外一台节点上单独启动master。命令：start-master.sh