首页技术文章正文

RDD在Spark中是怎样运行的?

更新时间:2021-06-17 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif

下面,通过一张图来学习一下RDD在Spark中运行流程,如图1所示。

RDD在Spark中的运行流程

图1 RDD在Spark中的运行流程


在图1中,,Spark的任务调度流程分为RDD Objects、DAGScheduler、TaskScheduler以及Worker四个部分。关于这四个部分的相关介绍具体如下:

(1)RDD Objects:当RDD对象创建后,SparkContext会根据RDD对象构建DAG有向无环图,然后将Task提交给DAGScheduler。

(2)DAGScheduler:将作业的DAG划分成不同的Stage,每个Stage都是TaskSet任务集合,并以TaskSet为单位提交给TaskScheduler。

(3)TaskScheduler:通过TaskSetManager管理Task,并通过集群中的资源管理器(Standalone模式下是Master,Yarn模式下是ResourceManager)把Task发给集群中Worker的Executor。若期间有某个Task失败,则TaskScheduler会重试;若TaskScheduler发现某个Task一直没有运行完成,则有可能在空闲的机器上启动同一个Task,哪个Task先完成就用哪个Task的结果。但是,无论Task是否成功,TaskScheduler都会向DAGScheduler汇报当前的状态,若某个Stage运行失败,则TaskScheduler会通知DAGScheduler重新提交Task。需要注意的是,一个TaskScheduler只能服务一个SparkContext对象。Worker:Spark集群中的Worker接收到Task后,把Task运行在Executor进程中,这个Task就相当于Executor中进程中的一个线程。一个进程中可以有多个线程在工作,从而可以处理多个数据分区(例如运行任务、读取或者存储数据)。



   



猜你喜欢:

RDD数据丢失后如何恢复?RDD容错机制介绍

RDD如何分区,各种模式下的分区数目是怎样的?

Spark RDD是什么?RDD特征介绍

黑马程序员Python+大数据开发课程

分享到:
在线咨询 我要报名
和我们在线交谈!