9.4 聚合函数

  1. count(col):计算每一组的元素的个数。

  2. avg(col):计算指定列的均值

  3. approx_count_distinct(col, rsd=None):统计指定列有多少个distinct

  4. countDistinct(col,*cols):计算一列或者一组列中的distinct value 的数量。

  5. collect_list(col):返回指定列的元素组成的列表(不会去重)

  6. collect_set(col):返回指定列的元素组成的集合(去重)

  7. first(col,ignorenulls=False):返回组内的第一个元素。

    如果ignorenulls=True,则忽略null 值,直到第一个非null 值。如果都是null,则返回null

    如果ignorenulls=False,则返回组内第一个元素(不管是不是null)

  8. last(col,ignorenulls=False):返回组内的最后一个元素。

    如果ignorenulls=True,则忽略null 值,直到最后一个非null 值。如果都是null,则返回null

    如果ignorenulls=False,则返回组内最后一个元素(不管是不是null)

  9. grouping(col):判断group by list 中的指定列是否被聚合。如果被聚合则返回1,否则返回 0。

  10. grouping_id(*cols):返回grouping 的级别。

    cols 必须严格匹配grouping columns,或者为空(表示所有的grouping columns)

  11. kurtosis(col):返回一组元素的峰度

  12. max(col):返回组内的最大值。

  13. mean(col):返回组内的均值

  14. min(col):返回组内的最小值

  15. skewness(col): 返回组内的偏度

  16. stddev(col):返回组内的样本标准差(分母除以 N-1

  17. stddev_pop(col):返回组内的总体标准差(分母除以 N

  18. stddev_samp(col): 返回组内的标准差,与stddev 相同

  19. sum(col):返回组内的和

  20. sumDistinct(col):返回组内distinct 值的和

  21. var_pop(col):返回组内的总体方差。 (分母除以 N

  22. var_samp(col):返回组内的样本方差 。(分母除以 N-1

  23. variance(col):返回组内的总体方差,与var_pop 相同