功能介绍

卡法独立性检验是检验两个因素(各有两项或以上的分类)之间是否相互影响的问题,其零假设是两因素之间相互独立。

参数说明

名称 中文名称 描述 类型 是否必须? 默认值
labelCol 标签列名 输入表中的标签列名 String
selectedCols 选择的列名 计算列对应的列名列表 String[]

脚本示例

脚本

  1. data = np.array([
  2. ['a1','b1','c1'],
  3. ['a1','b2','c1'],
  4. ['a1','b1','c2'],
  5. ['a2','b1','c1'],
  6. ['a2','b2','c2'],
  7. ['a2', 'b1','c1']])
  8. df = pd.DataFrame({"x1": data[:, 0], "x2": data[:, 1], "x3": data[:, 2]})
  9. source = dataframeToOperator(df, schemaStr='x1 string, x2 string, x3 string', op_type='batch')
  10. chisqTest = ChiSquareTestBatchOp()\
  11. .setSelectedCols(["x1","x2"])\
  12. .setLabelCol("x3")
  13. source.link(chisqTest).print()

结果

col chi2_result
x1 {“comment”:”pearson test”,”df”:1.0,”p”:1.0,”value”:0.0}
x2 {“comment”:”pearson test”,”df”:1.0,”p”:0.5402913746074196,”value”:0.37500000000000006}