云计算大数据培训之Spark-Streaming的基本原理以及预写日志机制和checkpoint（3）

更新时间:2017-09-01 来源:黑马程序员云计算大数据培训学院浏览量:

合适启用checkpoint机制
1.使用了有状态的transformation操作—比如updateStateByKey,或者reduceByKeyAndWindow操作被使用了，
那么checkpoint目录要求是必须提供的，也就必须开启checkpoint机制，从而进行周期性的RDD checkpoint
2.要保证可以从Driver失败中进行恢复—元数据checkpoint需要启用，来进行这种情况的恢复，
要注意的是，并不是说所有的Spark-Streaming应用程序，都要启用checkpoint机制，如果不强制要求从Driver
失败中自动进行恢复，有没有使用有状态的transformation操作，那么就不需要启用checkpoint，事实上
这么做反而是用利于提升性能的。

启动预写日志机制
预写日志机制，简写为WAL，全称为Write Ahead Log，从Spark 1.2版本开始，就引入了基于容错的文件系统的WAL机制，如果启用该机制，Receiver接收到的所有数据都会被写入配置的checkpoint目录中的预写日志这种机制可以让driver在恢复的时候，避免数据丢失，并且可以确保整个实时计算过程中，零数据丢失

要配置该机制，首先要调用StreamingContext的checkpoint()方法设置一个checkpoint目录，然后需要将spark.streaming.receiver.writeAheadLog.enable参数设置为true

然而这种极强的可靠性机制，会导致Receiver的吞吐量大幅度下降，因为单位时间内有相当一部分时间需要将数据写入预写日志，如果又希望开启预写日志机制，确保数据零损失，又不希望影响系统的吞吐量，那么可以创建多个输入DStream启动多个Reciver，然后将这些receiver接收到的数据使用ssc.union()方法将这些dstream中的数据进行合并
此外在启用了预写日志机制之后，推荐将复制持久化机制禁用掉，因为所有数据已经保存在容错的文件系统中了，不需要再用复制机制进行持久化，保存一份副本了，只要将输入的DStream的持久化机制设置一下即可

本文版权归黑马程序员云计算大数据培训学院学院所有，欢迎转载，转载请注明作者出处。谢谢！
作者：黑马程序员云计算大数据培训学院
首发：http://cloud.itheima.com/

全国中心

热门课程

云计算大数据培训之Spark-Streaming的基本原理以及预写日志机制和checkpoint（3）

最新资讯

相关阅读

热门课程推荐