1. 数据预处理

1.1. 按比例采样([2.0] DataSampling)

算法说明

按比例采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定的比例小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 抽样率:范围是0~1.0,表示抽取样本的比例,默认值为0.5。

1.2. 按样本数采样([2.0] ExactSampling)

算法说明

按样本数采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定数量小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 采样数量:默认是1000。
  • 有放回采样:默认是。可选择是和否。

1.3. 上采样([2.0] OverSampling)

算法说明

上采样是一种常用的处理不平衡数据的一种预处理方法。它是把小数据量的类别复制多份。上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 标签列:指定标签所在的列,从0开始计数。
  • 采样类别:需要采样的类别值(数量少的类别),如类别 0.0。
  • 目标类别:数量多的类别,如类别 1.0。
  • 类别比率阈值:如果(目标类别 / 采样类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(目标类别 / 采样类别)比类别比率阈值大, 那么会对采样类别进行采样,采样率为 (目标类别 / 采样类别)/ 类别比率阈值。

1.4. 下采样([2.0] DownSampling)

算法说明

下采样是一种常用的处理不平衡数据的一种预处理方法。下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。下采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了部分数据的特征。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 标签列:指定标签所在的列,从0开始计数。
  • 采样类别:需要采样的类别值(数量多的类别),如类别 0.0。
  • 目标类别:数量多的类别,如类别 1.0。
  • 类别比率阈值:如果(采样类别 / 目标类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(采样类别 / 目标类别)比类别比率阈值大,那么会对采样类别进行采样,采样率为 类别比率阈值 / (采样类别 / 目标类别)。

1.5. 数据切分([2.0] Spliter)

算法说明

数据切分是另外一种常用的数据预处理算法。在机器学习建模过程中,通常需要训练数据集和验证数据集两类数据集。该方法将数据集按照一定的比例切分为训练数据集和验证数据集。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 第一部分输出结果:第一份数据的输出,如切分比例为0.7,该份结果占总数据的0.7。
  • 第二部分输出结果:第二份数据的输出,如切分比例为0.7,该份结果占总数据的0.3。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

切分比例:数据切分的比例。

1.6. 数据去重([2.0] DropDuplicates)

算法说明

该算法用于将数据集中的重复样本进行去重处理。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

1.7. 自动生成 ID 列([2.0] GenerateIDColumn)

算法说明

该算法自动生成一列 ID 列,ID列各行的数据各不相同。生成的ID列会放到输出数据的最后一列。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 生成的列名:ID 列的列名,默认是“id”。

1.8. 缺失值替换([2.0] ReplaceMissing)

算法说明

该算法对数据中某列数据存在的缺失值进行替换。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 特征列:处理的特征列序号,如0-1,从0开始计数。
  • 填充方法:
    • zero:填充0值
    • minimum:填充最小值
    • maximum:填充最大值
    • average: 填充均值
    • median: 填充中位数
    • value:填充某一指定的固定值(主要针对字符串特征)

1.9. 选择列([2.0] SelectColumn)

算法说明

该算法选择参与建模的数据集的列。类似数据库中的select功能。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择列:表示需要计算的数据所在列,例如“1-10,12,15”,表示取在表中的1到10列,12列,15列,从0开始计数。

1.10. 修改列名([2.0] RenameColumn)

算法说明

该算法修改数据中某一列的列名。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择列:选择修改列名的列,从0开始计数。
  • 列名:修改后的列名。