功能介绍

基于StringIndexer模型,将一列整数映射为字符串。

参数说明

名称 中文名称 描述 类型 是否必须? 默认值
modelName 模型名字 模型名字 String
selectedCol 选中的列名 计算列对应的列名 String
reservedCols 算法保留列名 算法保留列 String[] null
outputCol 输出结果列 输出结果列列名,可选,默认null String null

脚本示例

脚本代码

  1. data = np.array([
  2. ["football"],
  3. ["football"],
  4. ["football"],
  5. ["basketball"],
  6. ["basketball"],
  7. ["tennis"],
  8. ])
  9. df_data = pd.DataFrame({
  10. "f0": data[:, 0],
  11. })
  12. data = dataframeToOperator(df_data, schemaStr='f0 string', op_type="batch")
  13. stringIndexer = StringIndexer() \
  14. .setModelName("string_indexer_model") \
  15. .setSelectedCol("f0") \
  16. .setOutputCol("f0_indexed") \
  17. .setStringOrderType("frequency_asc")
  18. indexed = stringIndexer.fit(data).transform(data)
  19. indexToString = IndexToString() \
  20. .setModelName("string_indexer_model") \
  21. .setSelectedCol("f0_indexed") \
  22. .setOutputCol("f0_indxed_unindexed")
  23. indexToString.transform(indexed).print()

脚本运行结果

  1. f0|f0_indexed|f0_indxed_unindexed
  2. --|----------|-------------------
  3. football|2|football
  4. football|2|football
  5. football|2|football
  6. basketball|1|basketball
  7. basketball|1|basketball
  8. tennis|0|tennis