文本 - Tokenizer(batch) - 《阿里巴巴 Alink v1.1.2 使用手册》

功能介绍
参数说明
脚本示例
- 脚本代码
- 脚本运行结果

功能介绍

Tokenizer(标记器)是将文本（如句子）分解成单个词语（通常是单词）的过程。

参数说明

名称	中文名称	描述	类型	是否必须？	默认值
selectedCol	选中的列名	计算列对应的列名	String	✓
outputCol	输出结果列	输出结果列列名，可选，默认null	String		null
reservedCols	算法保留列名	算法保留列	String[]		null

脚本示例

脚本代码

data = np.array([
    [0, 'That is an English Book!'],
    [1, 'Do you like math?'],
    [2, 'Have a good day!']
])
df = pd.DataFrame({"id": data[:, 0], "text": data[:, 1]})
inOp1 = dataframeToOperator(df, schemaStr='id long, text string', op_type='batch')
op = TokenizerBatchOp().setSelectedCol("text")
print(BatchOperator.collectToDataframe(op.linkFrom(inOp1)))
inOp2 = dataframeToOperator(df, schemaStr='id long, text string', op_type='stream')
op = TokenizerStreamOp().setSelectedCol("text")
op.linkFrom(inOp2).print()
StreamOperator.execute()

脚本运行结果

    id    text
0    1    do you like math?
1    0    that is an english book!
2    2    have a good day!