1. 数据预处理
- 1.1. 按比例采样（[2.0] DataSampling）
1.2. 按样本数采样（[2.0] ExactSampling）
1.3. 上采样（[2.0] OverSampling）
1.4. 下采样（[2.0] DownSampling）
1.5. 数据切分（[2.0] Spliter）
1.6. 数据去重（[2.0] DropDuplicates）
1.7. 自动生成 ID 列（[2.0] GenerateIDColumn）
1.8. 缺失值替换（[2.0] ReplaceMissing）
1.9. 选择列（[2.0] SelectColumn）
1.10. 修改列名（[2.0] RenameColumn）

1. 数据预处理

1.1. 按比例采样（[2.0] DataSampling）

算法说明

按比例采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定的比例小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

抽样率：范围是0~1.0，表示抽取样本的比例，默认值为0.5。

1.2. 按样本数采样（[2.0] ExactSampling）

算法说明

按样本数采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定数量小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

采样数量：默认是1000。
有放回采样：默认是。可选择是和否。

1.3. 上采样（[2.0] OverSampling）

算法说明

上采样是一种常用的处理不平衡数据的一种预处理方法。它是把小数据量的类别复制多份。上采样后的数据集中会反复出现一些样本，训练出来的模型会有一定的过拟合。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

标签列：指定标签所在的列，从0开始计数。
采样类别：需要采样的类别值（数量少的类别），如类别 0.0。
目标类别：数量多的类别，如类别 1.0。
类别比率阈值：如果(目标类别 / 采样类别）比类别比率阈值小，那么说明数据是平衡的，不做任何处理。如果(目标类别 / 采样类别）比类别比率阈值大，那么会对采样类别进行采样，采样率为 (目标类别 / 采样类别）/ 类别比率阈值。

1.4. 下采样（[2.0] DownSampling）

算法说明

下采样是一种常用的处理不平衡数据的一种预处理方法。下采样是从大众类中剔除一些样本，或者说只从大众类中选取部分样本。下采样的缺点显而易见，那就是最终的训练集丢失了数据，模型只学到了部分数据的特征。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

标签列：指定标签所在的列，从0开始计数。
采样类别：需要采样的类别值（数量多的类别），如类别 0.0。
目标类别：数量多的类别，如类别 1.0。
类别比率阈值：如果(采样类别 / 目标类别）比类别比率阈值小，那么说明数据是平衡的，不做任何处理。如果(采样类别 / 目标类别）比类别比率阈值大，那么会对采样类别进行采样，采样率为类别比率阈值 / (采样类别 / 目标类别）。

1.5. 数据切分（[2.0] Spliter）

算法说明

数据切分是另外一种常用的数据预处理算法。在机器学习建模过程中，通常需要训练数据集和验证数据集两类数据集。该方法将数据集按照一定的比例切分为训练数据集和验证数据集。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

第一部分输出结果：第一份数据的输出，如切分比例为0.7，该份结果占总数据的0.7。
第二部分输出结果：第二份数据的输出，如切分比例为0.7，该份结果占总数据的0.3。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

切分比例：数据切分的比例。

1.6. 数据去重（[2.0] DropDuplicates）

算法说明

该算法用于将数据集中的重复样本进行去重处理。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据路径：输出文件所在路径。
输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

1.7. 自动生成 ID 列（[2.0] GenerateIDColumn）

算法说明

该算法自动生成一列 ID 列，ID列各行的数据各不相同。生成的ID列会放到输出数据的最后一列。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

生成的列名：ID 列的列名，默认是“id”。

1.8. 缺失值替换（[2.0] ReplaceMissing）

算法说明

该算法对数据中某列数据存在的缺失值进行替换。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

特征列：处理的特征列序号，如0-1，从0开始计数。
填充方法：
- zero：填充0值
- minimum：填充最小值
- maximum：填充最大值
- average：填充均值
- median：填充中位数
- value：填充某一指定的固定值（主要针对字符串特征）

1.9. 选择列（[2.0] SelectColumn）

算法说明

该算法选择参与建模的数据集的列。类似数据库中的select功能。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

选择列：表示需要计算的数据所在列，例如“1-10,12,15”，表示取在表中的1到10列，12列，15列，从0开始计数。

1.10. 修改列名（[2.0] RenameColumn）

算法说明

该算法修改数据中某一列的列名。

输入

输入数据路径：输入文件所在路径。
输入文件类型：格式包括以下三种：
- csv： csv 文件
  - 输入数据包含header信息
  - 输入数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

输出

输出数据格式：格式包括以下三种：
- csv： csv 文件
  - 输出数据包含header信息
  - 输出数据分割符：主要包括逗号、空格、分号、星号等分割符
- text：文本文件
- parquet：列式存储格式 parquet

参数

选择列：选择修改列名的列，从0开始计数。
列名：修改后的列名。

4.3.1. 数据预处理

1. 数据预处理

1.1. 按比例采样（[2.0] DataSampling）

算法说明

输入

输出

参数

1.2. 按样本数采样（[2.0] ExactSampling）

算法说明

输入

输出

参数

1.3. 上采样（[2.0] OverSampling）

算法说明

输入

输出

参数

1.4. 下采样（[2.0] DownSampling）

算法说明

输入

输出

参数

1.5. 数据切分（[2.0] Spliter）

算法说明

输入

输出

参数

1.6. 数据去重（[2.0] DropDuplicates）

算法说明

输入

输出

1.7. 自动生成 ID 列（[2.0] GenerateIDColumn）

算法说明

输入

输出

参数

1.8. 缺失值替换（[2.0] ReplaceMissing）

算法说明

输入

输出

参数

1.9. 选择列（[2.0] SelectColumn）

算法说明

输入

输出

参数

1.10. 修改列名（[2.0] RenameColumn）

算法说明

输入

输出

参数