SPARK节点

SPARK节点

综述

Spark 任务类型用于执行 Spark 应用。对于 Spark 节点，worker 支持两个不同类型的 spark 命令提交任务：

(1) spark submit 方式提交任务。更多详情查看 spark-submit。

(2) spark sql 方式提交任务。更多详情查看 spark sql。

创建任务

点击项目管理 -> 项目名称 -> 工作流定义，点击”创建工作流”按钮，进入 DAG 编辑页面：
拖动工具栏的任务节点到画板中。

任务参数

节点名称：设置任务的名称。一个工作流定义中的节点名称是唯一的。
运行标志：标识这个节点是否能正常调度,如果不需要执行，可以打开禁止执行开关。
描述：描述该节点的功能。
任务优先级：worker 线程数不足时，根据优先级从高到低依次执行，优先级一样时根据先进先出原则执行。
Worker 分组：任务分配给 worker 组的机器执行，选择 Default 会随机选择一台 worker 机执行。
环境名称：配置运行脚本的环境。
失败重试次数：任务失败重新提交的次数。
失败重试间隔：任务失败重新提交任务的时间间隔，以分为单位。
延迟执行时间：任务延迟执行的时间，以分为单位。
超时警告：勾选超时警告、超时失败，当任务超过“超时时长”后，会发送告警邮件并且任务执行失败。
程序类型：支持 Java、Scala、Python 和 SQL 四种语言。
Spark 版本：支持 Spark1 和 Spark2。
主函数的 Class：Spark 程序的入口 Main class 的全路径。
主程序包：执行 Spark 程序的 jar 包（通过资源中心上传）。
SQL脚本：Spark sql 运行的 .sql 文件中的 SQL 语句。
部署方式：(1) spark submit 支持 yarn-clusetr、yarn-client 和 local 三种模式。 (2) spark sql 支持 yarn-client 和 local 两种模式。
任务名称（可选）：Spark 程序的名称。
Driver 核心数：用于设置 Driver 内核数，可根据实际生产环境设置对应的核心数。
Driver 内存数：用于设置 Driver 内存数，可根据实际生产环境设置对应的内存数。
Executor 数量：用于设置 Executor 的数量，可根据实际生产环境设置对应的内存数。
Executor 内存数：用于设置 Executor 内存数，可根据实际生产环境设置对应的内存数。
主程序参数：设置 Spark 程序的输入参数，支持自定义参数变量的替换。
选项参数：支持 --jar、--files、--archives、--conf 格式。
资源：如果其他参数中引用了资源文件，需要在资源中选择指定。
自定义参数：是 Spark 局部的用户自定义参数，会替换脚本中以 ${变量} 的内容。
前置任务：选择当前任务的前置任务，会将被选择的前置任务设置为当前任务的上游。