StringIndexer训练

功能介绍

StringIndexer训练组件的作用是训练一个模型用于将单列字符串映射为整数。

参数说明

名称 中文名称 描述 类型 是否必须? 默认值
modelName 模型名字 模型名字 String
selectedCol 选中的列名 计算列对应的列名 String
stringOrderType Token排序方法 Token排序方法 String “random”

脚本示例

脚本代码

  1. data = np.array([
  2. ["football"],
  3. ["football"],
  4. ["football"],
  5. ["basketball"],
  6. ["basketball"],
  7. ["tennis"],
  8. ])
  9. df_data = pd.DataFrame({
  10. "f0": data[:, 0],
  11. })
  12. data = dataframeToOperator(df_data, schemaStr='f0 string', op_type="batch")
  13. stringindexer = StringIndexerTrainBatchOp() \
  14. .setSelectedCol("f0") \
  15. .setStringOrderType("frequency_asc")
  16. model = stringindexer.linkFrom(data)
  17. model.print()

脚本运行结果

模型表:

  1. token token_index
  2. 0 tennis 0
  3. 1 basketball 1
  4. 2 football 2