HLL函数和操作符

哈希函数

  • hll_hash_boolean(bool)

    描述:对bool类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_boolean(FALSE);
    2. hll_hash_boolean
    3. ---------------------
    4. 5048724184180415669
    5. (1 row)
  • hll_hash_boolean(bool, int32)

    描述:设置hash seed(即改变哈希策略)并对bool类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_boolean(FALSE, 10);
    2. hll_hash_boolean
    3. --------------------
    4. 391264977436098630
    5. (1 row)
  • hll_hash_smallint(smallint)

    描述:对smallint类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_smallint(100::smallint);
    2. hll_hash_smallint
    3. ---------------------
    4. 4631120266694327276
    5. (1 row)

HLL函数和操作符 - 图1 说明: 数值大小相同的参数使用不同数据类型的哈希函数计算,最后结果会不一样,因为不同类型哈希函数会选取不同的哈希计算策略。

  • hll_hash_smallint(smallint, int32)

    描述:设置hash seed(即改变哈希策略)同时对smallint类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_smallint(100::smallint, 10);
    2. hll_hash_smallint
    3. ---------------------
    4. 8349353095166695771
    5. (1 row)
  • hll_hash_integer(integer)

    描述:对integer类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_integer(0);
    2. hll_hash_integer
    3. ----------------------
    4. -3485513579396041028
    5. (1 row)
  • hll_hash_integer(integer, int32)

    描述:对integer类型数据计算哈希值,并设置hashseed(即改变哈希策略)。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_integer(0, 10);
    2. hll_hash_integer
    3. --------------------
    4. 183371090322255134
    5. (1 row)
  • hll_hash_bigint(bigint)

    描述:对bigint类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_bigint(100::bigint);
    2. hll_hash_bigint
    3. ---------------------
    4. 8349353095166695771
    5. (1 row)
  • hll_hash_bigint(bigint, int32)

    描述:对bigint类型数据计算哈希值,并设置hashseed(即改变哈希策略)。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_bigint(100::bigint, 10);
    2. hll_hash_bigint
    3. ---------------------
    4. 4631120266694327276
    5. (1 row)
  • hll_hash_bytea(bytea)

    描述:对bytea类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_bytea(E'\\x');
    2. hll_hash_bytea
    3. ----------------
    4. 0
    5. (1 row)
  • hll_hash_bytea(bytea, int32)

    描述:对bytea类型数据计算哈希值,并设置hashseed(即改变哈希策略)。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_bytea(E'\\x', 10);
    2. hll_hash_bytea
    3. ---------------------
    4. 6574525721897061910
    5. (1 row)
  • hll_hash_text(text)

    描述:对text类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_text('AB');
    2. hll_hash_text
    3. ---------------------
    4. 5365230931951287672
    5. (1 row)
  • hll_hash_text(text, int32)

    描述:对text类型数据计算哈希值, 并设置hashseed(即改变哈希策略)。

    返回值类型:hll_hashval

    示例:

    1. postgres=# SELECT hll_hash_text('AB', 10);
    2. hll_hash_text
    3. ---------------------
    4. 7680762839921155903
    5. (1 row)
  • hll_hash_any(anytype)

    描述:对任意类型数据计算哈希值。

    返回值类型:hll_hashval

    示例:

    1. postgres=# select hll_hash_any(1);
    2. hll_hash_any
    3. ----------------------
    4. -8604791237420463362
    5. (1 row)
    6. postgres=# select hll_hash_any('08:00:2b:01:02:03'::macaddr);
    7. hll_hash_any
    8. ----------------------
    9. -4883882473551067169
    10. (1 row)
  • hll_hash_any(anytype, int32)

    描述:对任意类型数据计算哈希值,并设置hashseed(即改变哈希策略)。

    返回值类型:hll_hashval

    示例:

    1. postgres=# select hll_hash_any(1, 10);
    2. hll_hash_any
    3. ----------------------
    4. -1478847531811254870
    5. (1 row)
  • hll_hashval_eq(hll_hashval, hll_hashval)

    描述:比较两个hll_hashval类型数据是否相等。

    返回值类型:bool

    示例:

    1. postgres=# select hll_hashval_eq(hll_hash_integer(1), hll_hash_integer(1));
    2. hll_hashval_eq
    3. ----------------
    4. t
    5. (1 row)
  • hll_hashval_ne(hll_hashval, hll_hashval)

    描述:比较两个hll_hashval类型数据是否不相等。

    返回值类型:bool

    示例:

    1. postgres=# select hll_hashval_ne(hll_hash_integer(1), hll_hash_integer(1));
    2. hll_hashval_ne
    3. ----------------
    4. f
    5. (1 row)

精度函数

HLL(HyperLogLog)主要存在三种模式Explicit,Sparse,Full。当数据规模比较小的时候会使用Explicit模式和Sparse模式, 这两种模式在计算结果上基本上没有误差。 随着distinct值越来越多,就会转换成Full模式,但结果也会存在一定误差。下列函数用于查看HLL中精度参数。

  • hll_schema_version(hll)

    描述:查看当前hll中的schema version。

    示例:

    1. postgres=# select hll_schema_version(hll_empty());
    2. hll_schema_version
    3. --------------------
    4. 1
    5. (1 row)
  • hll_type(hll)

    描述:查看当前hll的类型。

    示例:

    1. postgres=# select hll_type(hll_empty());
    2. hll_type
    3. ----------
    4. 1
    5. (1 row)
  • hll_log2m(hll)

    描述:查看当前hll的log2m数值,此值会影响最后hll计算distinct误差率,误差率计算公式为±1.04/√(2 ^ log2m)。

    示例:

    1. postgres=# select hll_log2m(hll_empty());
    2. hll_log2m
    3. -----------
    4. 11
    5. (1 row)
  • hll_regwidth(hll)

    描述:查看hll数据结构中桶的位数大小。

    示例:

    1. postgres=# select hll_regwidth(hll_empty());
    2. hll_regwidth
    3. --------------
    4. 5
    5. (1 row)
  • hll_expthresh(hll)

    描述:得到当前hll中expthresh大小,hll通常会由Explicit模式到Sparse模式再到Full模式,这个过程称为promotion hierarchy策略。可以通过调整expthresh值的大小改变策略,比如expthresh为0的时候就会跳过Explicit模式而直接进入Sparse模式。当显式指定expthresh的取值为1-7之间时,该函数得到的是 2expthresh。

    示例:

    1. postgres=# select hll_expthresh(hll_empty());
    2. hll_expthresh
    3. ---------------
    4. (-1,160)
    5. (1 row)
    6. postgres=# select hll_expthresh(hll_empty(11,5,3));
    7. hll_expthresh
    8. ---------------
    9. (8,8)
    10. (1 row)
  • hll_sparseon(hll)

    描述:是否启用sparse模式,0是关闭,1是开启。

    示例:

    1. postgres=# select hll_sparseon(hll_empty());
    2. hll_sparseon
    3. --------------
    4. 1
    5. (1 row)

聚合函数

  • hll_add_agg(hll_hashval)

    描述:把哈希后的数据按照分组放到hll中。

    返回值类型:hll

    示例:

    1. --准备数据
    2. postgres=# create table t_id(id int);
    3. postgres=# insert into t_id values(generate_series(1,500));
    4. postgres=# create table t_data(a int, c text);
    5. postgres=# insert into t_data select mod(id,2), id from t_id;
    6. --创建表并指定列为hll
    7. postgres=# create table t_a_c_hll(a int, c hll);
    8. --根据agroup by对数据分组,把各组数据加到hll
    9. postgres=# insert into t_a_c_hll select a, hll_add_agg(hll_hash_text(c)) from t_data group by a;
    10. --得到每组数据中hllDistinct
    11. postgres=# select a, #c as cardinality from t_a_c_hll order by a;
    12. a | cardinality
    13. ---+------------------
    14. 0 | 250.741759091658
    15. 1 | 250.741759091658
    16. (2 rows)
  • hll_add_agg(hll_hashval, int32 log2m)

    描述:把哈希后的数据按照分组放到hll中。 并指定参数log2m,取值范围是10到16。

    返回值类型:hll

    示例:

    1. postgres=# Select hll_cardinality(hll_add_agg(hll_hash_text(c), 10)) from t_data;
    2. hll_cardinality
    3. ------------------
    4. 503.932348927339
    5. (1 row)
  • hll_add_agg(hll_hashval, int32 log2m, int32 regwidth)

    描述:把哈希后的数据按照分组放到hll中。依次制定参数log2m, regwidth。 regwidth取值范围是1到5。

    返回值类型:hll

    示例:

    1. postgres=# Select hll_cardinality(hll_add_agg(hll_hash_text(c), NULL, 1)) from t_data;
    2. hll_cardinality
    3. ------------------
    4. 496.628982624022
    5. (1 row)
  • hll_add_agg(hll_hashval, int32 log2m, int32 regwidth, int64 expthresh)

    描述:把哈希后的数据按照分组放到hll中, 依次指定参数log2m、regwidth、expthresh。expthresh的取值范围是-1-7之间的整数,该参数可以用来设置从Explicit模式到Sparse模式的阈值大小。-1表示自动模式,0表示跳过Explicit模式,取1-7表示在基数到达 2expthresh时切换模式。

    返回值类型:hll

    示例:

    1. postgres=# Select hll_cardinality(hll_add_agg(hll_hash_text(c), NULL, 1, 4)) from t_data;
    2. hll_cardinality
    3. ------------------
    4. 496.628982624022
    5. (1 row)
  • hll_add_agg(hll_hashval, int32 log2m, int32 regwidth, int64 expthresh, int32 sparseon)

    描述:把哈希后的数据按照分组放到hll中, 依次制定参数log2m、regwidth、expthresh、sparseon,sparseon取值范围是0或者1。

    返回值类型:hll

    示例:

    1. postgres=# Select hll_cardinality(hll_add_agg(hll_hash_text(c), NULL, 1, 4, 0)) from t_data;
    2. hll_cardinality
    3. ------------------
    4. 496.628982624022
    5. (1 row)
  • hll_union_agg(hll)

    描述:将多个hll类型数据union成一个hll。

    返回值类型:hll

    示例:

    1. --将各组中的hll数据union成一个hll,并计算distinct值。
    2. postgres=# select #hll_union_agg(c) as cardinality from t_a_c_hll;
    3. cardinality
    4. ------------------
    5. 496.628982624022
    6. (1 row)

    HLL函数和操作符 - 图2 说明: 注意:当两个或者多个hll数据结构做union的时候,必须要保证其中每一个hll里面的精度参数一样,否则将不可以进行union。同样的约束也适用于函数hll_union(hll,hll)。

功能函数

  • hll_print(hll)

    描述:打印hll的一些debug参数信息。

    示例:

    1. postgres=# select hll_print(hll_empty());
    2. hll_print
    3. -----------------------------------------------------------
    4. EMPTY, nregs=2048, nbits=5, expthresh=-1(160), sparseon=1gongne
    5. (1 row)
  • hll_empty()

    描述:创建一个空的hll。

    返回值类型:hll

    示例:

    1. postgres=# select hll_empty();
    2. hll_empty
    3. -----------
    4. \x118b7f
    5. (1 row)
  • hll_empty(int32 log2m)

    描述:创建空的hll并指定参数log2m,取值范围是10到16。

    返回值类型: hll

    示例:

    1. postgres=# select hll_empty(10);
    2. hll_empty
    3. -----------
    4. \x118a7f
    5. (1 row)
  • hll_empty(int32 log2m, int32 regwidth)

    描述:创建空的hll并依次指定参数log2m、regwidth。regwidth取值范围是1到5。

    返回值类型: hll

    示例:

    1. postgres=# select hll_empty(10, 4);
    2. hll_empty
    3. -----------
    4. \x116a7f
    5. (1 row)
  • hll_empty(int32 log2m, int32 regwidth, int64 expthresh)

    描述:创建空的hll并依次指定参数log2m、regwidth、expthresh。expthresh取值范围是-1到7之间的整数。该参数可以用来设置从Explicit模式到Sparse模式的阈值大小。-1表示自动模式,0表示跳过Explicit模式,取1-7表示在基数到达2expthresh时切换模式。

    返回值类型:hll

    示例:

    1. postgres=# select hll_empty(10, 4, 7);
    2. hll_empty
    3. -----------
    4. \x116a48
    5. (1 row)
  • hll_empty(int32 log2m, int32 regwidth, int64 expthresh, int32 sparseon)

    描述:创建空的hll并依次指定参数log2m、regwidth、expthresh、sparseon。sparseon取0或者1。

    返回值类型:hll

    示例:

    1. postgres=# select hll_empty(10,4,7,0);
    2. hll_empty
    3. -----------
    4. \x116a08
    5. (1 row)
  • hll_add(hll, hll_hashval)

    描述:把hll_hashval加入到hll中。

    返回值类型:hll

    示例:

    1. postgres=# select hll_add(hll_empty(), hll_hash_integer(1));
    2. hll_add
    3. --------------------------
    4. \x128b7f8895a3f5af28cafe
    5. (1 row)
  • hll_add_rev(hll_hashval, hll)

    描述:把hll_hashval加入到hll中,和hll_add功能一样,只是参数位置进行了交换。

    返回值类型:hll

    示例:

    1. postgres=# select hll_add_rev(hll_hash_integer(1), hll_empty());
    2. hll_add_rev
    3. --------------------------
    4. \x128b7f8895a3f5af28cafe
    5. (1 row)
  • hll_eq(hll, hll)

    描述:比较两个hll是否相等。

    返回值类型:bool

    示例:

    1. postgres=# select hll_eq(hll_add(hll_empty(), hll_hash_integer(1)), hll_add(hll_empty(), hll_hash_integer(2)));
    2. hll_eq
    3. --------
    4. f
    5. (1 row)
  • hll_ne(hll, hll)

    描述:比较两个hll是否不相等。

    返回值类型:bool

    示例:

    1. postgres=# select hll_ne(hll_add(hll_empty(), hll_hash_integer(1)), hll_add(hll_empty(), hll_hash_integer(2)));
    2. hll_ne
    3. --------
    4. t
    5. (1 row)
  • hll_cardinality(hll)

    描述:计算hll的distinct值。

    返回值类型:int

    示例:

    1. postgres=# select hll_cardinality(hll_empty() || hll_hash_integer(1));
    2. hll_cardinality
    3. -----------------
    4. 1
    5. (1 row)
  • hll_union(hll, hll)

    描述:把两个hll数据结构union成一个。

    返回值类型:hll

    示例:

    1. postgres=# select hll_union(hll_add(hll_empty(), hll_hash_integer(1)), hll_add(hll_empty(), hll_hash_integer(2)));
    2. hll_union
    3. ------------------------------------------
    4. \x128b7f8895a3f5af28cafeda0ce907e4355b60
    5. (1 row)

内置函数

HLL(HyperLogLog)有一系列内置函数用于内部对数据进行处理,一般情况下用户不需要熟知这些函数的使用。详情见表1

表 1 内置函数

函数名称

功能描述

hll_in

以string格式接收hll数据。

hll_out

以string格式发送hll数据。

hll_recv

以bytea格式接收hll数据。

hll_send

以bytea格式发送hll数据。

hll_trans_in

以string格式接收hll_trans_type数据。

hll_trans_out

以string格式发送hll_trans_type数据。

hll_trans_recv

以bytea形式接收hll_trans_type数据。

hll_trans_send

以bytea形式发送hll_trans_type数据。

hll_typmod_in

接收typmod类型数据。

hll_typmod_out

发送typmod类型数据。

hll_hashval_in

接收hll_hashval类型数据。

hll_hashval_out

发送hll_hashval类型数据。

hll_add_trans0

类似于hll_add所提供的功能,通常在分布式聚合运算的第一阶段DN上使用。

hll_add_trans1

类似于hll_add所提供的功能,通常在分布式聚合运算的第二阶段DN上使用。

hll_add_trans2

类似于hll_add所提供的功能,通常在分布式聚合运算的第三阶段DN上使用。

hll_add_trans3

类似于hll_add所提供的功能,通常在分布式聚合运算的第四阶段DN上使用。

hll_add_trans4

类似于hll_add所提供的功能,通常在分布式聚合运算的第五阶段DN上使用。

hll_union_trans

类似hll_union所提供的功能,在分布式聚合运算的第一阶段DN上使用。

hll_union_collect

类似于hll_union所提供的功能,在分布式聚合运算第二阶段DN上使用,汇总各个DN上的结果。

hll_pack

在分布式聚合运算第三阶段DN上使用,把自定义hll_trans_type类型最后转换成hll类型。

hll

用于hll类型转换成hll类型,根据输入参数会设定指定参数。

hll_hashval

用于bigint类型转换成hll_hashval类型。

hll_hashval_int4

用于int4类型转换成hll_hashval类型。

操作符

  • \=

    描述:比较hll或hll_hashval的值是否相等。

    返回值类型:bool

    示例:

    1. --hll
    2. postgres=# select (hll_empty() || hll_hash_integer(1)) = (hll_empty() || hll_hash_integer(1));
    3. column
    4. ----------
    5. t
    6. (1 row)
    7. --hll_hashval
    8. postgres=# select hll_hash_integer(1) = hll_hash_integer(1);
    9. ?column?
    10. ----------
    11. t
    12. (1 row)
  • <> or !=

    描述:比较hll或hll_hashval是否不相等。

    返回值类型:bool

    示例:

    1. --hll
    2. postgres=# select (hll_empty() || hll_hash_integer(1)) <> (hll_empty() || hll_hash_integer(2));
    3. ?column?
    4. ----------
    5. t
    6. (1 row)
    7. --hll_hashval
    8. postgres=# select hll_hash_integer(1) <> hll_hash_integer(2);
    9. ?column?
    10. ----------
    11. t
    12. (1 row)
  • ||

    描述:可代表hll_add, hll_union, hll_add_rev三个函数的功能。

    返回值类型:hll

    示例:

    1. --hll_add
    2. postgres=# select hll_empty() || hll_hash_integer(1);
    3. ?column?
    4. --------------------------
    5. \x128b7f8895a3f5af28cafe
    6. (1 row)
    7. --hll_add_rev
    8. postgres=# select hll_hash_integer(1) || hll_empty();
    9. ?column?
    10. --------------------------
    11. \x128b7f8895a3f5af28cafe
    12. (1 row)
    13. --hll_union
    14. postgres=# select (hll_empty() || hll_hash_integer(1)) || (hll_empty() || hll_hash_integer(2));
    15. ?column?
    16. ------------------------------------------
    17. \x128b7f8895a3f5af28cafeda0ce907e4355b60
    18. (1 row)
  • #

    描述:计算出hll的Dintinct值, 同hll_cardinality函数。

    返回值类型:int

    示例:

    1. postgres=# select #(hll_empty() || hll_hash_integer(1));
    2. ?column?
    3. ----------
    4. 1
    5. (1 row)