1. 异常检测

1.1. 孤立森林([2.0] IsolationForest)

IsolationForest是一种基于孤立森林的异常点检测算法,该算法首先构建n颗树,每棵树都从原始数据中有放回的采样m个样本进行训练,每颗树在训练的时候都完全采用了随机选择特征以及特征分裂点的方式,然后再将每颗树的训练结果进行汇总就可以得到每个样本成为异常点的概率(0到1之间的浮点值),该值越大越有可能是异常点。具体算法过程请参考论文Isolation-based Anomaly Detection

1.1.1. 训练节点

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 树棵树:构建森林需要的树个数,默认100。
  • 特征数:用于训练树的随机特征数。
  • 样本数:用于训练树的随机样本数。
  • 异常点比例:数据集中异常点所占的比例,默认为0.1。
  • 树的最大深度:默认为10。
  • 是否有放回采样:默认为 false。

1.1.2. 预测节点

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

1.2. Z-score异常值检测([2.0] Z-score)

算法说明

Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点z_i的设定阈值Z_tZ_i = (x_i - mu) / std,其中mu是均值,std是标准差。然后经过标准化处理后,异常值也进行了标准化处理,其绝对值大于Z_t。本算法中Z_t取3。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv: csv 文件
      • 输入数据包含header信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv: csv 文件
      • 输出数据包含header信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • text:文本文件
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:检测的特征列,从0开始计数。