数据开发

概述

完成数据集成后,可以对FDP数据平台中的数据根据不同业务规则进行加工,从而发现其价值,主要步骤为数据清洗与数据萃取,以下章节详细描述具体操作步骤。

数据清洗

离线数据清洗

  1. 离线数据清洗任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
  2. 拖拽锚点可创建新的节点任务,选择数据清洗,进入参数填写页面。

  3. 步骤一:对所要创建表类型,表名称,加载策略等基本信息进行填写,填写完毕后,点击下一步,进行步骤二和步骤三。

  4. 步骤二/步骤三:对数据来源表(主模型)以及通过填写过滤条件对数据范围进行确定,在步骤三中可点击新增关联模型按钮,来选择与主模型关联的关联模型和关联方式,过滤条件对关联模型的数据范围进行筛选。配置完成后点击确认按钮,在列表中可查看、配置、删除已配置的关联模型。点击配置按钮,将主模型与关联模型关联条件进行设置。如果存在变更情况,需删除原配置关系,再进行重新配置新的关联关系。

  5. 步骤四:完成关联模型配置后,点击下一步,配置目标模型字段。左侧同步模型字段列表中含主模型+关联模型所有字段,下侧填写过滤条件对主模型和关联模型的数据集,进行过滤。右侧目标模型字段可由左侧同步模型字段同步,亦可点击下侧添加按钮进行新建字段。确定目标模型所有字段后,点击右侧功能按钮,对字段描述、类型、计算逻辑等信息进行编辑。最后,点击上方SQL预览按钮,查看目标模型生成SQL逻辑,查看无误后,点击完成按钮,生成所创建的数据清洗节点。

数据开发 - 图1

步骤 参数 说明 是否必填项
步骤一 节点名称 任务节点名称
节点描述 任务节点描述
视图类型 选择视图编辑(可视化图形界面配置)/ 自定义编辑(文本代码编辑)
存储方式 选择存储一/存储二(存储一和存储二详见产品功能介绍)
清洗类型 选择事实表或维度表,详情请参考(数据模型设计与开发规范)
创建方式 手动创建/选择已有(如将创建表为第一次创建,选择手动创建)
表名称 维度表/事实表表名称
表中文名 维度表/事实表表中文名称
加载策略 增量/全量
表描述 维度表/事实表表描述
CPU 分配该任务节点使用CPU
最大分配内存 分配该任务占用队列的最大内存
步骤二 选择主模型 选择数据来源表
过滤条件 对数据来源表进行的过滤条件填写
步骤三 选择关联模型 选择关联的数据表
关联类型 LEFT JOIN/RIGHT JOIN /FULL JOIN
过滤条件 对数据来源表进行的过滤条件填写
配置字段 主模型与关联模型关联条件
配置方式 关联字段/自定义编辑
关联字段 主模型关联字段
步骤四 过滤条件 对主模型和关联模型的数据集,进行过滤
字段名 字段名称
字段描述 字段描述
字段类型 字段类型
字段长度 字段长度
是否主键 主键
是否分区键 分区键
配置方式 关联字段/自定义编辑(自定义逻辑选择自定义编辑)
关联模型字段/配置规则 如配置方式选择关联字段,则在关联模型中选择相应字段,如在配置方式中选择自定义编辑,则在配置规则中编写规则

实时数据清洗

  1. 实时数据清洗任务配置时,任务节点所属工作流周期选择实时任务。
  2. 拖拽锚点可创建新的节点任务,选择数据清洗,目前实时数据清洗仅支持自定义编辑操作。

  3. 填写实时清洗节点节点名称、CPU、表名称等基础信息。

  4. 在自定义文本编辑中书写Flink-SQL逻辑,书写语法及参数配置可参考Flink官网。

  5. 操作演示

数据开发 - 图2

数据萃取

离线数据萃取

  1. 离线数据萃取任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
  2. 拖拽锚点可创建新的节点任务,选择数据萃取,进入参数填写页面。

  3. 步骤一:对所要创建表类型,表名称,加载策略等基本信息进行填写,填写完毕后,点击下一步,进行步骤二和步骤三。

  4. 步骤二/步骤三:对数据来源表(主模型)以及通过填写过滤条件对数据范围进行确定,在步骤三中可点击新增关联模型按钮,来选择与主模型关联的关联模型和关联方式,过滤条件对关联模型的数据范围进行筛选。配置完成后点击确认按钮,在列表中可查看、配置、删除已配置的关联模型。点击配置按钮,将主模型与关联模型关联条件进行设置。如果存在变更情况,需删除原配置关系,再进行重新配置新的关联关系。

  5. 步骤四:完成关联模型配置后,点击下一步,配置目标模型字段。左侧同步模型字段列表中含主模型+关联模型所有字段,下侧填写过滤条件对主模型和关联模型的数据集,进行过滤。右侧目标模型字段可由左侧同步模型字段同步,亦可点击下侧添加按钮进行新建字段。确定目标模型所有字段后,点击右侧功能按钮,对字段描述、类型、计算逻辑等信息进行编辑。最后,点击上方SQL预览按钮,查看目标模型生成SQL逻辑,查看无误后,点击完成按钮,生成所创建的数据萃取节点。

数据开发 - 图3

步骤 参数 说明 是否必填项
步骤一 节点名称 任务节点名称
节点描述 任务节点描述
视图类型 选择视图编辑(可视化图形界面配置)/ 自定义编辑(文本代码编辑)
存储方式 选择存储一/存储二(存储一和存储二详见产品功能介绍)
萃取类型 选择汇总表或应用表,详情请参考(数据模型设计与开发规范)
创建方式 手动创建/选择已有(如将创建表为第一次创建,选择手动创建)
表名称 汇总表/应用表表名称
表中文名 汇总表/应用表表中文名称
加载策略 增量/全量
表描述 汇总表/应用表表描述
CPU 分配该任务节点使用CPU
最大分配内存 分配该任务占用队列的最大内存
步骤二 所有参数 同数据清洗步骤二一致,请参考数据数据清洗步骤二 参考步骤二
步骤三 所有参数 同数据清洗步骤三一致,请参考数据数据清洗步骤三 参考步骤三
步骤四 所有参数 同数据清洗步骤四一致,请参考数据数据清洗步骤四 参考步骤四

实时数据萃取

  1. 实时数据萃取任务配置时,任务节点所属工作流周期选择实时任务。
  2. 拖拽锚点可创建新的节点任务,选择数据清洗,目前实时数据萃取仅支持自定义编辑操作。

  3. 填写实时萃取节点节点名称、CPU、表名称等基础信息。

  4. 在自定义文本编辑中书写Flink-SQL逻辑,书写语法及参数配置可参考Flink官网。

数据开发 - 图4

数据导出

离线数据导出

  1. 离线数据导出任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
  2. 拖拽锚点可创建新的节点任务,选择数据导出。

  3. 填写数据导出节点基础信息。

参数 说明 是否必填项
节点名称 任务节点名称
描述 任务节点描述
视图类型 选择视图编辑(目前仅支持视图导向配置)
存储方式 选择存储一/存储二(存储一和存储二详见产品功能介绍)
CPU 分配该任务节点使用CPU
最大分配内存 分配该任务占用队列的最大内存
  1. 填写配置信息参数
模块 参数 说明
模型同步来源 数据源 默认数据平台存储组件
数据模型 选择已完成开发的数据模型
加载策略 全量/增量
加载时间 分/时/天(选择增量)
过滤条件 对所要导出表进行数据范围确定
模型同步目标 数据源 选择已配置完成的业务数据源
数据模型 选择已配置完成的业务源数据模型
写入模式 选择更新/覆盖
前置条件 输入前置语句逻辑,如truncate table xxx
  1. 完成基础信息和配置信息参数填写后,可在左下角点击编辑按钮对每一个字段进行质量规则的配置,质量规则详情参考上述质量规则操作。

  2. 最后点击确认按钮完成数据导出节点配置。

数据开发 - 图5

实时数据导出

实时任务配置时,任务节点所属工作流周期选择实时任务。

  1. 拖拽锚点可创建新的节点任务,选择数据导出,目前实时数据导出仅支持自定义编辑操作。
  2. 实时导出书写语法及参数配置可参考flink官网。

数据开发 - 图6