Spark集群启动机制与应用任务提交详细说明

2022-12-12 12:55:12

Spark 集群的运转机制：从启动到任务提交

想要充分理解 Spark 的强大，深入了解其幕后的运作机制至关重要。本文将带你踏上 Spark 集群启动和任务提交过程的探索之旅，让你领略其协调运作的魅力。

启动机制

Spark 集群的诞生始于 Master 节点。当我们按下启动按钮时，start-master.sh 和 start-slaves.sh 脚本便粉墨登场。

Master 节点的诞生

start-master.sh 挥洒代码，在 NettyRpcEnv 中精心注册 Master Endpoint，为其他节点的 RPC 请求搭建桥梁。接下来，它召唤 org.apache.spark.deploy.master.Master 登场，肩负起集群协调者的重任。

Slave 节点的崛起

Slave 节点的启动如出一辙。它们同样注册 Endpoint，并启动 org.apache.spark.deploy.worker.Worker，扮演着执行任务的忠实伙伴。

应用任务的征程

Spark 应用的旅程始于 Driver 程序的诞生，负责将应用代码分发到各个 Worker，并指挥任务的有序进行。Driver 随后向 Master 递交申请书——Application 对象，阐述应用的名称、资源诉求和代码信息。

Master 细心审核申请，根据集群资源和调度策略，为应用分配资源并启动 Executor。Executor 作为 Worker 上的执行者，肩负着从 Driver 获取代码和任务，并申请资源执行任务的重任。

部署模式：Standalone vs. Yarn

Spark 集群支持两种部署模式：Standalone 和 Yarn。

Standalone 模式

想象一个由 Master 和 Worker 组成的自治王国，这就是 Standalone 模式。Master 统筹全局，分配资源，启动 Executor；Worker 则兢兢业业地执行任务。

Yarn 模式

Yarn 模式中，集群管理者 ResourceManager 俯瞰全景；NodeManager 掌控各个节点的资源；ApplicationMaster 则负责应用的执行。Spark 应用需要向 ResourceManager 递交申请，由其启动 ApplicationMaster，再由 ApplicationMaster向 NodeManager 申请资源并启动 Executor。

调度器：Coarse-grained vs. Fine-grained

Spark 巧妙地提供了两种调度器：Coarse-grained 和 Fine-grained。

Coarse-grained 调度器

将任务打包成任务组，分配给 Executor 执行，流程简单但效率稍逊。

Fine-grained 调度器

将任务分解成更小的单元，再分配给 Executor，资源利用率更高，执行效率更胜一筹。

总结

Spark 集群启动和任务提交的过程如同一部精妙的交响乐，每一个组件都和谐协作，奏响数据处理的壮丽篇章。通过深入理解这些机制，你将解锁 Spark 的无限潜能，在数据海洋中畅游无阻。

常见问题解答

什么是 Spark 集群？
Spark 集群是一组分布式计算机，共同协作执行大数据任务。
Master 节点的作用是什么？
Master 节点是 Spark 集群的协调者，负责管理 Worker 节点和任务调度。
Executor 的作用是什么？
Executor 是在 Worker 节点上运行的进程，负责执行任务。
Coarse-grained 和 Fine-grained 调度器有什么区别？
Coarse-grained 调度器将任务打包成任务组执行，而 Fine-grained 调度器将任务分解成更小的单元执行。
Spark 支持哪些部署模式？
Spark 支持两种部署模式：Standalone 模式和 Yarn 模式。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

Spark集群启动机制与应用任务提交详细说明

Kyle

拨开Java中的Select查询执行机制，直击查询过程

揭秘IoC容器依赖注入的内在实现与难忘心得

Lakehouse：数据分析新纪元，云上实践探秘

从不同角度全方位剖析Elastic日志收集方法

探索 FreeSql Repository 的强大功能：超酷特性助你轻松管理数据