1. Step4 数据预处理

操作步骤

  • 数据准备完成后,将数据预处理(此处为SelectColumn选择特征列、ReplaceMissing缺失值填充、StringIndexer字符串索引以及Spliter数据切分)拖动至画布中,并右键重命名组件,拼接如下实验。

1.1.4. Step4 数据预处理 - 图1

  • 点击选择特征列,在画布右侧设置区进行参数设置,输入相应特征列序号,并以逗号隔开。

1.1.4. Step4 数据预处理 - 图2

  • 点击缺失值填充,在画布右侧设置区进行参数设置,选择特征列和相应的填充方式。

1.1.4. Step4 数据预处理 - 图3

  • 点击字符串索引,在初始的数据集中,需要将字符串转换为数值的形式,以用于后续的建模。

在这里我们需要对数据中的“sex”和“embarked”列分别做字符串索引,点击相应组件,并在画布右侧的参数设置区中,选择相应的特征列。

  • 点击数据切分,在画布右侧的参数设置区中,输入切分比例0.8,80%作为模型训练集,20%作为模型测试集。

  • 点击菜单栏中的运行按钮,数据预处理成功运行。

https://main.qcloudimg.com/raw/3349882ba5f18b484199c390bc0f3249.png