功能介绍

本组件对于每行文本生成它的NGram存储。

参数说明

名称 中文名称 描述 类型 是否必须? 默认值
n nGram长度 nGram长度 Integer 2
selectedCol 选中的列名 计算列对应的列名 String
outputCol 输出结果列 输出结果列列名,可选,默认null String null
reservedCols 算法保留列名 算法保留列 String[] null

脚本示例

脚本代码

  1. data = np.array([
  2. [0, 'That is an English Book!'],
  3. [1, 'Do you like math?'],
  4. [2, 'Have a good day!']
  5. ])
  6. df = pd.DataFrame({"id": data[:, 0], "text": data[:, 1]})
  7. inOp1 = dataframeToOperator(df, schemaStr='id long, text string', op_type='batch')
  8. op = NGramBatchOp().setSelectedCol("text")
  9. print(BatchOperator.collectToDataframe(op.linkFrom(inOp1)))
  10. inOp2 = dataframeToOperator(df, schemaStr='id long, text string', op_type='stream')
  11. op = NGramStreamOp().setSelectedCol("text")
  12. op.linkFrom(inOp2).print()
  13. StreamOperator.execute()

脚本运行结果

  1. id text
  2. 0 2 Have_a a_good good_day!
  3. 1 1 Do_you you_like like_math?
  4. 2 0 That_is is_an an_English English_Book!