Description

Filter stop words in a document.

Parameters

Name Description Type Required? Default Value
caseSensitive If true, do a case sensitive comparison over the stop words Boolean false
stopWords User defined stop words list。 String[] null
selectedCol Name of the selected column used for processing String
outputCol Name of the output column String null
reservedCols Names of the columns to be retained in the output table String[] null

Script Example

Code

  1. # -*- coding=UTF-8 -*-
  2. data = np.array([
  3. [0, u'二手旧书:医学电磁成像'],
  4. [1, u'二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969'],
  5. [2, u'二手正版图解象棋入门/谢恩思主编/华龄出版社'],
  6. [3, u'二手中国糖尿病文献索引'],
  7. [4, u'二手郁达夫文集( 国内版 )全十二册馆藏书']
  8. ])
  9. df = pd.DataFrame({"id": data[:, 0], "text": data[:, 1]})
  10. inOp = dataframeToOperator(df, schemaStr='id long, text string', op_type='batch')
  11. segment = SegmentBatchOp().setSelectedCol("text").setOutputCol("segment")
  12. segment.linkFrom(inOp)
  13. remover = StopWordsRemoverBatchOp().setSelectedCol("segment").setOutputCol("remover")
  14. BatchOperator.collectToDataframe(remover.linkFrom(segment))

Results

  1. id text segment remover
  2. 0 0 二手旧书:医学电磁成像 二手 旧书 : 医学 电磁 成像 二手 旧书 医学 电磁 成像
  3. 1 1 二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969 二手 美国 文学 选读 下册 李宜燮 南开大学 出版社 97873100... 二手 美国 文学 选读 下册 李宜燮 南开大学 出版社 9787310003969
  4. 2 2 二手正版图解象棋入门/谢恩思主编/华龄出版社 二手 正版 图解 象棋 入门 / 谢恩 主编 / 华龄 出版社 二手 正版 图解 象棋 入门 谢恩 主编 华龄 出版社
  5. 3 3 二手中国糖尿病文献索引 二手 中国 糖尿病 文献 索引 二手 中国 糖尿病 文献 索引
  6. 4 4 二手郁达夫文集( 国内版 )全十二册馆藏书 二手 郁达夫 文集 国内 十二册 馆藏 二手 郁达夫 文集 国内 十二册 馆藏