Vector 缺失值填充训练组件

功能介绍

训练Vecotor 缺失值填充组件的模型,输出模型。

算法参数

名称 中文名称 描述 类型 是否必须? 默认值
strategy 缺失值填充规则 缺失值填充的规则,支持mean,max,min或者value。选择value时,需要读取fillValue的值 String “mean”
fillValue 填充缺失值 自定义的填充值。当strategy为value时,读取fillValue的值 String null
selectedCol 选中的列名 计算列对应的列名 String
outputCol 输出结果列 输出结果列列名,可选,默认null String null

脚本示例

运行脚本

  1. data = np.array([["1:3,2:4,4:7", 1],\
  2. ["1:3,2:NaN", 3],\
  3. ["2:4,4:5", 4]])
  4. df = pd.DataFrame({"vec" : data[:,0], "id" : data[:,1]})
  5. data = dataframeToOperator(df, schemaStr="vec string, id bigint",op_type="batch")
  6. vecFill = VectorImputer().setSelectedCol("vec").setOutputCol("vec1")
  7. vecFill.fit(data).transform(data).collectToDataframe()

运行结果

vec id vec1
1:3,2:4,4:7 1 1:3.0 2:4.0 4:7.0
1:3,2:NaN 3 1:3.0 2:4.0
2:4,4:5 4 2:4.0 4:5.0