数据类型

由于历史原因,在 Flink 1.9 之前,Flink Table & SQL API 的数据类型与 Flink 的 TypeInformation 耦合紧密。TypeInformation 在 DataStream 和 DataSet API 中被使用,并且足以用来用于描述分布式环境中 JVM 对象的序列化和反序列化操作所需的全部信息。

然而,TypeInformation 并不是为独立于 JVM class 的逻辑类型而设计的。之前很难将 SQL 的标准类型映射到 TypeInformation 抽象。此外,有一些类型并不是兼容 SQL 的并且引入的时候没有长远规划过。

从 Flink 1.9 开始,Table & SQL API 开始启用一种新的类型系统作为长期解决方案,用来保持 API 稳定性和 SQL 标准的兼容性。

重新设计类型系统是一项涉及几乎所有的面向用户接口的重大工作。因此,它的引入跨越多个版本,社区的目标是在 Flink 1.12 完成这项工作。

同时由于为 Table 编程添加了新的 Planner 详见(FLINK-11439), 并不是每种 Planner 都支持所有的数据类型。此外,Planner 对于数据类型的精度和参数化支持也可能是不完整的。

注意 在使用数据类型之前请参阅 Planner 的兼容性表和局限性章节。

数据类型

数据类型 描述 Table 编程环境中的值的逻辑类型。它可以被用来声明操作的输入输出类型。

Flink 的数据类型和 SQL 标准的 数据类型 术语类似,但也包含了可空属性,可以被用于标量表达式(scalar expression)的优化。

数据类型的示例:

  • INT
  • INT NOT NULL
  • INTERVAL DAY TO SECOND(3)
  • ROW<myField ARRAY<BOOLEAN>, myOtherField TIMESTAMP(3)>

全部的预定义数据类型见下面列表。

Table API 的数据类型

JVM API 的用户可以在 Table API 中使用 org.apache.flink.table.types.DataType 的实例,以及定义连接器(Connector)、Catalog 或者用户自定义函数(User-Defined Function)。

一个 DataType 实例有两个作用:

  • 逻辑类型的声明,它不表达具体物理类型的存储和转换,但是定义了基于 JVM 的语言和 Table 编程环境之间的边界。
  • 可选的: 向 Planner 提供有关数据的物理表示的提示,这对于边界 API 很有用。

对于基于 JVM 的语言,所有预定义的数据类型都在 org.apache.flink.table.api.DataTypes 里提供。

建议使用星号将全部的 API 导入到 Table 程序中以便于使用:

  1. import static org.apache.flink.table.api.DataTypes.*;
  2. DataType t = INTERVAL(DAY(), SECOND(3));
  1. import org.apache.flink.table.api.DataTypes._
  2. val t: DataType = INTERVAL(DAY(), SECOND(3));

物理提示

在 Table 编程环境中,基于 SQL 的类型系统与程序指定的数据类型之间需要物理提示。该提示指出了实现预期的数据格式。

例如,Data Source 能够使用类 java.sql.Timestamp 来表达逻辑上的 TIMESTAMP 产生的值,而不是使用缺省的 java.time.LocalDateTime。有了这些信息,运行时就能够将产生的类转换为其内部数据格式。反过来,Data Sink 可以声明它从运行时消费的数据格式。

下面是一些如何声明桥接转换类的示例:

  1. // 告诉运行时不要产生或者消费 java.time.LocalDateTime 实例
  2. // 而是使用 java.sql.Timestamp
  3. DataType t = DataTypes.TIMESTAMP(3).bridgedTo(java.sql.Timestamp.class);
  4. // 告诉运行时不要产生或者消费装箱的整数数组
  5. // 而是使用基本数据类型的整数数组
  6. DataType t = DataTypes.ARRAY(DataTypes.INT().notNull()).bridgedTo(int[].class);
  1. // 告诉运行时不要产生或者消费 java.time.LocalDateTime 实例
  2. // 而是使用 java.sql.Timestamp
  3. val t: DataType = DataTypes.TIMESTAMP(3).bridgedTo(classOf[java.sql.Timestamp]);
  4. // 告诉运行时不要产生或者消费装箱的整数数组
  5. // 而是使用基本数据类型的整数数组
  6. val t: DataType = DataTypes.ARRAY(DataTypes.INT().notNull()).bridgedTo(classOf[Array[Int]]);

注意 请注意,通常只有在扩展 API 时才需要物理提示。 预定义的 Source、Sink、Function 的用户不需要定义这样的提示。在 Table 编程中(例如 field.cast(TIMESTAMP(3).bridgedTo(Timestamp.class)))这些提示将被忽略。

Planner 兼容性

正如简介里提到的,重新开发类型系统将跨越多个版本,每个数据类型的支持取决于使用的 Planner。本节旨在总结最重要的差异。

旧的 Planner

Flink 1.9 之前引入的旧的 Planner 主要支持类型信息(Type Information),它只对数据类型提供有限的支持,可以声明能够转换为类型信息的数据类型,以便旧的 Planner 能够理解它们。

下表总结了数据类型和类型信息之间的区别。大多数简单类型以及 Row 类型保持不变。Time 类型、 Array 类型和 Decimal 类型需要特别注意。不允许使用其他的类型提示。

对于 类型信息 列,该表省略了前缀 org.apache.flink.table.api.Types

对于 数据类型表示 列,该表省略了前缀 org.apache.flink.table.api.DataTypes

类型信息Java 表达式字符串数据类型表示数据类型备注
STRING()STRINGSTRING() 
BOOLEAN()BOOLEANBOOLEAN() 
BYTE()BYTETINYINT() 
SHORT()SHORTSMALLINT() 
INT()INTINT() 
LONG()LONGBIGINT() 
FLOAT()FLOATFLOAT() 
DOUBLE()DOUBLEDOUBLE() 
ROW(…)ROW<…>ROW(…) 
BIG_DEC()DECIMAL[DECIMAL()]不是 1:1 的映射,因为精度和小数位被忽略,Java 的可变精度和小数位被使用。
SQL_DATE()SQL_DATEDATE()
.bridgedTo(java.sql.Date.class)
 
SQL_TIME()SQL_TIMETIME(0)
.bridgedTo(java.sql.Time.class)
 
SQL_TIMESTAMP()SQL_TIMESTAMPTIMESTAMP(3)
.bridgedTo(java.sql.Timestamp.class)
 
INTERVAL_MONTHS()INTERVAL_MONTHSINTERVAL(MONTH())
.bridgedTo(Integer.class)
 
INTERVAL_MILLIS()INTERVAL_MILLISINTERVAL(DataTypes.SECOND(3))
.bridgedTo(Long.class)
 
PRIMITIVE_ARRAY(…)PRIMITIVE_ARRAY<…>ARRAY(DATATYPE.notNull()
.bridgedTo(PRIMITIVE.class))
应用于除 byte 外的全部 JVM 基本数据类型。
PRIMITIVE_ARRAY(BYTE())PRIMITIVE_ARRAY<BYTE>BYTES() 
OBJECT_ARRAY(…)OBJECT_ARRAY<…>ARRAY(
DATATYPE.bridgedTo(OBJECT.class))
 
MULTISET(…) MULTISET(…) 
MAP(…, …)MAP<…,…>MAP(…) 
其他通用类型 RAW(…) 

注意 如果对于新的类型系统有任何疑问,用户可以随时切换到 org.apache.flink.table.api.Types 中定义的 type information。

新的 Blink Planner

新的 Blink Planner 支持旧的 Planner 的全部类型,尤其包括列出的 Java 表达式字符串和类型信息。

支持以下数据类型:

数据类型数据类型的备注
STRINGCHARVARCHAR 暂不支持。
BOOLEAN 
BYTESBINARYVARBINARY 暂不支持。
DECIMAL支持固定精度和小数位数。
TINYINT 
SMALLINT 
INTEGER 
BIGINT 
FLOAT 
DOUBLE 
DATE 
TIME支持的精度仅为 0
TIMESTAMP 
TIMESTAMP WITH LOCAL TIME ZONE 
INTERVAL仅支持 MONTHSECOND(3) 区间。
ARRAY 
MULTISET 
MAP 
ROW 
RAW 
stuctured types暂只能在用户自定义函数里使用。

局限性

Java 表达式字符串:Table API 中的 Java 表达式字符串,例如 table.select("field.cast(STRING)"),尚未被更新到新的类型系统中,使用旧的 Planner 章节中声明的字符串来表示。

用户自定义函数:用户自定义聚合函数尚不能声明数据类型,标量函数和表函数充分支持数据类型。

数据类型列表

本节列出了所有预定义的数据类型。对于基于 JVM 的 Table API,这些类型也可以从 org.apache.flink.table.api.DataTypes 中找到。

字符串

CHAR

固定长度字符串的数据类型。

声明

  1. CHAR
  2. CHAR(n)
  1. DataTypes.CHAR(n)

此类型用 CHAR(n) 声明,其中 n 表示字符数量。n 的值必须在 12,147,483,647 之间(含边界值)。如果未指定长度,n 等于 1

JVM 类型

Java 类型输入输出备注
java.lang.StringXX缺省
byte[]XX假设使用 UTF-8 编码。
org.apache.flink.table.data.StringDataXX内部数据结构。

VARCHAR / STRING

可变长度字符串的数据类型。

声明

  1. VARCHAR
  2. VARCHAR(n)
  3. STRING
  1. DataTypes.VARCHAR(n)
  2. DataTypes.STRING()

此类型用 VARCHAR(n) 声明,其中 n 表示最大的字符数量。n 的值必须在 12,147,483,647 之间(含边界值)。如果未指定长度,n 等于 1

STRING 等价于 VARCHAR(2147483647).

JVM 类型

Java 类型输入输出备注
java.lang.StringXX缺省
byte[]XX假设使用 UTF-8 编码。
org.apache.flink.table.data.StringDataXX内部数据结构。

二进制字符串

BINARY

固定长度二进制字符串的数据类型(=字节序列)。

声明

  1. BINARY
  2. BINARY(n)
  1. DataTypes.BINARY(n)

此类型用 BINARY(n) 声明,其中 n 是字节数量。n 的值必须在 12,147,483,647 之间(含边界值)。如果未指定长度,n 等于 1

JVM 类型

Java 类型输入输出备注
byte[]XX缺省

VARBINARY / BYTES

可变长度二进制字符串的数据类型(=字节序列)。

声明

  1. VARBINARY
  2. VARBINARY(n)
  3. BYTES
  1. DataTypes.VARBINARY(n)
  2. DataTypes.BYTES()

此类型用 VARBINARY(n) 声明,其中 n 是最大的字节数量。n 的值必须在 12,147,483,647 之间(含边界值)。如果未指定长度,n 等于 1

BYTES 等价于 VARBINARY(2147483647)

JVM 类型

Java 类型输入输出备注
byte[]XX缺省

精确数值

DECIMAL

精度和小数位数固定的十进制数字的数据类型。

声明

  1. DECIMAL
  2. DECIMAL(p)
  3. DECIMAL(p, s)
  4. DEC
  5. DEC(p)
  6. DEC(p, s)
  7. NUMERIC
  8. NUMERIC(p)
  9. NUMERIC(p, s)
  1. DataTypes.DECIMAL(p, s)

此类型用 DECIMAL(p, s) 声明,其中 p 是数字的位数(精度),s 是数字中小数点右边的位数(尾数)。p 的值必须介于 138 之间(含边界值)。s 的值必须介于 0p 之间(含边界值)。其中 p 的缺省值是 10s 的缺省值是 0

NUMERIC(p, s)DEC(p, s) 都等价于这个类型。

JVM 类型

Java 类型输入输出备注
java.math.BigDecimalXX缺省
org.apache.flink.table.data.DecimalDataXX内部数据结构。

TINYINT

1 字节有符号整数的数据类型,其值从 -128 to 127

声明

  1. TINYINT
  1. DataTypes.TINYINT()

JVM 类型

Java 类型输入输出备注
java.lang.ByteXX缺省
byteX(X)仅当类型不可为空时才输出。

SMALLINT

2 字节有符号整数的数据类型,其值从 -32,76832,767

声明

  1. SMALLINT
  1. DataTypes.SMALLINT()

JVM 类型

Java 类型输入输出备注
java.lang.ShortXX缺省
shortX(X)仅当类型不可为空时才输出。

INT

4 字节有符号整数的数据类型,其值从 -2,147,483,6482,147,483,647

声明

  1. INT
  2. INTEGER
  1. DataTypes.INT()

INTEGER 等价于此类型。

JVM 类型

Java 类型输入输出备注
java.lang.IntegerXX缺省
intX(X)仅当类型不可为空时才输出。

BIGINT

8 字节有符号整数的数据类型,其值从 -9,223,372,036,854,775,8089,223,372,036,854,775,807

声明

  1. BIGINT
  1. DataTypes.BIGINT()

JVM 类型

Java 类型输入输出备注
java.lang.LongXX缺省
longX(X)仅当类型不可为空时才输出。

近似数值

FLOAT

4 字节单精度浮点数的数据类型。

与 SQL 标准相比,该类型不带参数。

声明

  1. FLOAT
  1. DataTypes.FLOAT()

JVM 类型

Java 类型输入输出备注
java.lang.FloatXX缺省
floatX(X)仅当类型不可为空时才输出。

DOUBLE

8 字节双精度浮点数的数据类型。

声明

  1. DOUBLE
  2. DOUBLE PRECISION
  1. DataTypes.DOUBLE()

DOUBLE PRECISION 等价于此类型。

JVM 类型

Java 类型输入输出备注
java.lang.DoubleXX缺省
doubleX(X)仅当类型不可为空时才输出。

日期和时间

DATE

日期的数据类型由 year-month-day 组成,范围从 0000-01-019999-12-31

与 SQL 标准相比,年的范围从 0000 开始。

声明

  1. DATE
  1. DataTypes.DATE()

JVM 类型

Java 类型输入输出备注
java.time.LocalDateXX缺省
java.sql.DateXX 
java.lang.IntegerXX描述从 Epoch 算起的天数。
intX(X)描述从 Epoch 算起的天数。
仅当类型不可为空时才输出。

TIME

不带时区的时间数据类型,由 hour:minute:second[.fractional] 组成,精度达到纳秒,范围从 00:00:00.00000000023:59:59.999999999

与 SQL 标准相比,不支持闰秒(23:59:6023:59:61),语义上更接近于 java.time.LocalTime。没有提供带有时区的时间。

声明

  1. TIME
  2. TIME(p)
  1. DataTypes.TIME(p)

此类型用 TIME(p) 声明,其中 p 是秒的小数部分的位数(精度)。p 的值必须介于 09 之间(含边界值)。如果未指定精度,则 p 等于 0

JVM 类型

Java 类型输入输出备注
java.time.LocalTimeXX缺省
java.sql.TimeXX 
java.lang.IntegerXX描述自当天以来的毫秒数。
intX(X)描述自当天以来的毫秒数。
仅当类型不可为空时才输出。
java.lang.LongXX描述自当天以来的纳秒数。
longX(X)描述自当天以来的纳秒数。
仅当类型不可为空时才输出。

TIMESTAMP

不带时区的时间戳数据类型,由 year-month-day hour:minute:second[.fractional] 组成,精度达到纳秒,范围从 0000-01-01 00:00:00.0000000009999-12-31 23:59:59.999999999

与 SQL 标准相比,不支持闰秒(23:59:6023:59:61),语义上更接近于 java.time.LocalDateTime

不支持和 BIGINT(JVM long 类型)互相转换,因为这意味着有时区,然而此类型是无时区的。对于语义上更接近于 java.time.Instant 的需求请使用 TIMESTAMP WITH LOCAL TIME ZONE

声明

  1. TIMESTAMP
  2. TIMESTAMP(p)
  3. TIMESTAMP WITHOUT TIME ZONE
  4. TIMESTAMP(p) WITHOUT TIME ZONE
  1. DataTypes.TIMESTAMP(p)

此类型用 TIMESTAMP(p) 声明,其中 p 是秒的小数部分的位数(精度)。p 的值必须介于 09 之间(含边界值)。如果未指定精度,则 p 等于 6

TIMESTAMP(p) WITHOUT TIME ZONE 等价于此类型。

JVM 类型

Java 类型输入输出备注
java.time.LocalDateTimeXX缺省
java.sql.TimestampXX 
org.apache.flink.table.data.TimestampDataXX内部数据结构。

TIMESTAMP WITH TIME ZONE

带有时区的时间戳数据类型,由 year-month-day hour:minute:second[.fractional] zone 组成,精度达到纳秒,范围从 0000-01-01 00:00:00.000000000 +14:599999-12-31 23:59:59.999999999 -14:59

与 SQL 标准相比,不支持闰秒(23:59:6023:59:61),语义上更接近于 java.time.OffsetDateTime

TIMESTAMP WITH LOCAL TIME ZONE 相比,时区偏移信息物理存储在每个数据中。它单独用于每次计算、可视化或者与外部系统的通信。

声明

  1. TIMESTAMP WITH TIME ZONE
  2. TIMESTAMP(p) WITH TIME ZONE
  1. DataTypes.TIMESTAMP_WITH_TIME_ZONE(p)

此类型用 TIMESTAMP(p) WITH TIME ZONE 声明,其中 p 是秒的小数部分的位数(精度)。p 的值必须介于 09 之间(含边界值)。如果未指定精度,则 p 等于 6

JVM 类型

Java 类型输入输出备注
java.time.OffsetDateTimeXX缺省
java.time.ZonedDateTimeX 忽略时区 ID。

TIMESTAMP WITH LOCAL TIME ZONE

带有本地时区的时间戳数据类型,由 year-month-day hour:minute:second[.fractional] zone 组成,精度达到纳秒,范围从 0000-01-01 00:00:00.000000000 +14:599999-12-31 23:59:59.999999999 -14:59

不支持闰秒(23:59:6023:59:61),语义上更接近于 java.time.OffsetDateTime

TIMESTAMP WITH TIME ZONE 相比,时区偏移信息并非物理存储在每个数据中。相反,此类型在 Table 编程环境的 UTC 时区中采用 java.time.Instant 语义。每个数据都在当前会话中配置的本地时区中进行解释,以便用于计算和可视化。

此类型允许根据配置的会话时区来解释 UTC 时间戳,从而填补了时区无关和时区相关的时间戳类型之间的鸿沟。

声明

  1. TIMESTAMP WITH LOCAL TIME ZONE
  2. TIMESTAMP(p) WITH LOCAL TIME ZONE
  1. DataTypes.TIMESTAMP_WITH_LOCAL_TIME_ZONE(p)

此类型用 TIMESTAMP(p) WITH LOCAL TIME ZONE 声明,其中 p 是秒的小数部分的位数(精度)。p 的值必须介于 09 之间(含边界值)。如果未指定精度,则 p 等于 6

JVM 类型

Java 类型输入输出备注
java.time.InstantXX缺省
java.lang.IntegerXX描述从 Epoch 算起的秒数。
intX(X)描述从 Epoch 算起的秒数。
仅当类型不可为空时才输出。
java.lang.LongXX描述从 Epoch 算起的毫秒数。
longX(X)描述从 Epoch 算起的毫秒数。
仅当类型不可为空时才输出
org.apache.flink.table.data.TimestampDataXX内部数据结构。

INTERVAL YEAR TO MONTH

一组 Year-Month Interval 数据类型。

此类型必被参数化为以下情况中的一种:

  • Year 时间间隔、
  • Year-Month 时间间隔、
  • Month 时间间隔。

Year-Month Interval 由 +years-months 组成,其范围从 -9999-11+9999-11

所有类型的表达能力均相同。例如,Month 时间间隔下的 50 等价于 Year-Month 时间间隔(缺省年份精度)下的 +04-02

声明

  1. INTERVAL YEAR
  2. INTERVAL YEAR(p)
  3. INTERVAL YEAR(p) TO MONTH
  4. INTERVAL MONTH
  1. DataTypes.INTERVAL(DataTypes.YEAR())
  2. DataTypes.INTERVAL(DataTypes.YEAR(p))
  3. DataTypes.INTERVAL(DataTypes.YEAR(p), DataTypes.MONTH())
  4. DataTypes.INTERVAL(DataTypes.MONTH())

可以使用以上组合来声明类型,其中 p 是年数(年精度)的位数。p 的值必须介于 14 之间(含边界值)。如果未指定年精度,p 则等于 2

JVM 类型

Java 类型输入输出备注
java.time.PeriodXX忽略 days 部分。 缺省
java.lang.IntegerXX描述月的数量。
intX(X)描述月的数量。
仅当类型不可为空时才输出。

INTERVAL DAY TO MONTH

一组 Day-Time Interval 数据类型。

此类型达到纳秒精度,必被参数化为以下情况中的一种:

  • Day 时间间隔、
  • Day-Hour 时间间隔、
  • Day-Minute 时间间隔、
  • Day-Second 时间间隔、
  • Hour 时间间隔、
  • Hour-Minute 时间间隔、
  • Hour-Second 时间间隔、
  • Minute 时间间隔、
  • Minute-Second 时间间隔、
  • Second 时间间隔。

Day-Time 时间间隔由 +days hours:months:seconds.fractional 组成,其范围从 -999999 23:59:59.999999999+999999 23:59:59.999999999

所有类型的表达能力均相同。例如,Second 时间间隔下的 70 等价于 Day-Second 时间间隔(缺省精度)下的 +00 00:01:10.000000

声明

  1. INTERVAL DAY
  2. INTERVAL DAY(p1)
  3. INTERVAL DAY(p1) TO HOUR
  4. INTERVAL DAY(p1) TO MINUTE
  5. INTERVAL DAY(p1) TO SECOND(p2)
  6. INTERVAL HOUR
  7. INTERVAL HOUR TO MINUTE
  8. INTERVAL HOUR TO SECOND(p2)
  9. INTERVAL MINUTE
  10. INTERVAL MINUTE TO SECOND(p2)
  11. INTERVAL SECOND
  12. INTERVAL SECOND(p2)
  1. DataTypes.INTERVAL(DataTypes.DAY())
  2. DataTypes.INTERVAL(DataTypes.DAY(p1))
  3. DataTypes.INTERVAL(DataTypes.DAY(p1), DataTypes.HOUR())
  4. DataTypes.INTERVAL(DataTypes.DAY(p1), DataTypes.MINUTE())
  5. DataTypes.INTERVAL(DataTypes.DAY(p1), DataTypes.SECOND(p2))
  6. DataTypes.INTERVAL(DataTypes.HOUR())
  7. DataTypes.INTERVAL(DataTypes.HOUR(), DataTypes.MINUTE())
  8. DataTypes.INTERVAL(DataTypes.HOUR(), DataTypes.SECOND(p2))
  9. DataTypes.INTERVAL(DataTypes.MINUTE())
  10. DataTypes.INTERVAL(DataTypes.MINUTE(), DataTypes.SECOND(p2))
  11. DataTypes.INTERVAL(DataTypes.SECOND())
  12. DataTypes.INTERVAL(DataTypes.SECOND(p2))

可以使用以上组合来声明类型,其中 p1 是天数(天精度)的位数,p2 是秒的小数部分的位数(小数精度)。p1 的值必须介于 1 和之间 6(含边界值),p2 的值必须介于 0 和之间 9(含边界值)。如果 p1 未指定值,则缺省等于 2,如果 p2 未指定值,则缺省等于 6

JVM 类型

Java 类型输入输出备注
java.time.DurationXX缺省
java.lang.LongXX描述毫秒数。
longX(X)描述毫秒数。
仅当类型不可为空时才输出。

结构化的数据类型

ARRAY

具有相同子类型元素的数组的数据类型。

与 SQL 标准相比,无法指定数组的最大长度,而是被固定为 2,147,483,647。另外,任何有效类型都可以作为子类型。

声明

  1. ARRAY<t>
  2. t ARRAY
  1. DataTypes.ARRAY(t)

此类型用 ARRAY<t> 声明,其中 t 是所包含元素的数据类型。

t ARRAY 接近等价于 SQL 标准。例如,INT ARRAY 等价于 ARRAY<INT>

JVM 类型

Java 类型输入输出备注
t[](X)(X)依赖于子类型。 缺省
org.apache.flink.table.data.ArrayDataXX内部数据结构。

MAP

将键(包括 NULL)映射到值(包括 NULL)的关联数组的数据类型。映射不能包含重复的键;每个键最多可以映射到一个值。

元素类型没有限制;确保唯一性是用户的责任。

Map 类型是 SQL 标准的扩展。

声明

  1. MAP<kt, vt>
  1. DataTypes.MAP(kt, vt)

此类型用 MAP<kt, vt> 声明,其中 kt 是键的数据类型,vt 是值的数据类型。

JVM 类型

Java 类型输入输出备注
java.util.Map<kt, vt>XX缺省
java.util.Map<kt, vt>子类型X  
org.apache.flink.table.data.MapDataXX内部数据结构。

MULTISET

多重集合的数据类型(=bag)。与集合不同的是,它允许每个具有公共子类型的元素有多个实例。每个唯一值(包括 NULL)都映射到某种多重性。

元素类型没有限制;确保唯一性是用户的责任。

声明

  1. MULTISET<t>
  2. t MULTISET
  1. DataTypes.MULTISET(t)

此类型用 MULTISET<t> 声明,其中 t 是所包含元素的数据类型。

t MULTISET 接近等价于 SQL 标准。例如,INT MULTISET 等价于 MULTISET<INT>

JVM 类型

Java 类型输入输出备注
java.util.Map<t, java.lang.Integer>XX将每个值可多重地分配给一个整数 缺省
java.util.Map<t, java.lang.Integer>子类型X  
org.apache.flink.table.data.MapDataXX内部数据结构。

ROW

字段序列的数据类型。

字段由字段名称、字段类型和可选的描述组成。表中的行的是最特殊的类型是 Row 类型。在这种情况下,行中的每一列对应于相同位置的列的 Row 类型的字段。

与 SQL 标准相比,可选的字段描述简化了复杂结构的处理。

Row 类型类似于其他非标准兼容框架中的 STRUCT 类型。

声明

  1. ROW<n0 t0, n1 t1, ...>
  2. ROW<n0 t0 'd0', n1 t1 'd1', ...>
  3. ROW(n0 t0, n1 t1, ...>
  4. ROW(n0 t0 'd0', n1 t1 'd1', ...)
  1. DataTypes.ROW(DataTypes.FIELD(n0, t0), DataTypes.FIELD(n1, t1), ...)
  2. DataTypes.ROW(DataTypes.FIELD(n0, t0, d0), DataTypes.FIELD(n1, t1, d1), ...)

此类型用 ROW<n0 t0 'd0', n1 t1 'd1', ...> 声明,其中 n 是唯一的字段名称,t 是字段的逻辑类型,d 是字段的描述。

ROW(...) 接近等价于 SQL 标准。例如,ROW(myField INT, myOtherField BOOLEAN) 等价于 ROW<myField INT, myOtherField BOOLEAN>

JVM 类型

Java 类型输入输出备注
org.apache.flink.types.RowXX缺省
org.apache.flink.table.data.RowDataXX内部数据结构。

用户自定义数据类型

注意 还未完全支持用户自定义数据类型,当前(从 Flink 1.11 开始)它们仅可作为函数参数和返回值的未注册的结构化类型。

结构化类型类似于面向对象编程语言中的对象,可包含零个、一个或多个属性,每个属性都包含一个名称和一个类型。

有两种结构化类型:

  • 存储在 catalog 并由 catatlog 标识符 标识的类型(例如 cat.db.MyType),等价于 SQL 标准定义里的结构化类型。

  • 实现类 标识,通常以反射方式匿名定义的未注册类型(例如 com.myorg.model.MyType)。当写代码定义表时,这些功能很有用。它们使你能够重用现有的JVM类,而无需重复手动定义数据类型。

可注册的结构化类型

当前尚不支持,因此无法在 catalog 里保存或在 CREATE TABLE DDL 语句里引用它们。

未注册的结构化类型

可以从常规 POJOs(Plain Old Java Objects)自动反射式提取出未注册的结构化类型。

结构化类型的实现类必须满足以下要求:

  • 可被全局访问到,即必须声明为 publicstatic,不能用 abstract
  • 提供无参默认构造器,或可设置所有成员变量的构造器;
  • 可访问类的所有成员变量,比如使用 public 声明成员变量,或遵循通用代码规范写 getter 比如 getField()isField()field()
  • 可设置类的所有成员变量,比如使用 public 声明成员变量,定义可设置所有成员变量的构造器,或遵循通用代码规范写 setter 比如 setField(...)field(...)
  • 所有成员变量都要映射到某个数据类型,比如使用反射式提取进行隐式映射,或用 @DataTypeHint 注解 显式映射;
  • 忽略 statictransient 修饰的成员变量;

只要字段不(递归地)指向自己,反射式提取支持字段的任意嵌套。

成员变量(比如 public int age;)的类型必须包含在本文为每种数据类型定义的受支持的 JVM 类型列表里(例如,java.lang.Integerint 对应 INT)。

对于某些类,需要有注解才能将类映射到数据类型(例如, @DataTypeHint("DECIMAL(10, 2)")java.math.BigDecimal 分配固定的精度和小数位)。

声明

  1. class User {
  2. // extract fields automatically
  3. public int age;
  4. public String name;
  5. // enrich the extraction with precision information
  6. public @DataTypeHint("DECIMAL(10, 2)") BigDecimal totalBalance;
  7. // enrich the extraction with forcing using RAW types
  8. public @DataTypeHint("RAW") Class<?> modelClass;
  9. }
  10. DataTypes.of(User.class);
  1. case class User(
  2. // extract fields automatically
  3. age: Int,
  4. name: String,
  5. // enrich the extraction with precision information
  6. @DataTypeHint("DECIMAL(10, 2)") totalBalance: java.math.BigDecimal,
  7. // enrich the extraction with forcing using a RAW type
  8. @DataTypeHint("RAW") modelClass: Class[_]
  9. )
  10. DataTypes.of(classOf[User])

JVM 类型

Java 类型输入输出备注
类型XX原始类或子类(用于输入)或超类(用于输出)缺省
org.apache.flink.types.RowXX代表一行数据的结构化类型。
org.apache.flink.table.data.RowDataXX内部数据结构。

其他数据类型

BOOLEAN

(可能)具有 TRUEFALSEUNKNOWN 三值逻辑的布尔数据类型。

声明

  1. BOOLEAN
  1. DataTypes.BOOLEAN()

JVM 类型

Java 类型输入输出备注
java.lang.BooleanXX缺省
booleanX(X)仅当类型不可为空时才输出。

RAW

任意序列化类型的数据类型。此类型对于 Flink Table 来讲是一个黑盒子,仅在跟外部交互时被反序列化。

Raw 类型是 SQL 标准的扩展。

声明

  1. RAW('class', 'snapshot')
  1. DataTypes.RAW(class, serializer)
  2. DataTypes.RAW(class)

此类型用 RAW('class', 'snapshot') 声明,其中 class 是原始类,snapshot 是 Base64 编码的序列化的 TypeSerializerSnapshot。通常,类型字符串不是直接声明的,而是在持久化类型时生成的。

在 API 中,可以通过直接提供 Class + TypeSerializer 或通过传递 TypeInformation 并让框架从那里提取 Class + TypeSerializer 来声明 RAW 类型。

JVM 类型

Java 类型输入输出备注
类型XX原始类或子类(用于输入)或超类(用于输出)。 缺省
byte[] X 
org.apache.flink.table.data.RawValueDataXX内部数据结构。

NULL

表示空类型 NULL 值的数据类型。

NULL 类型是 SQL 标准的扩展。NULL 类型除 NULL 值以外没有其他值,因此可以将其强制转换为 JVM 里的任何可空类型。

此类型有助于使用 NULL 字面量表示 API 调用中的未知类型,以及桥接到定义该类型的 JSON 或 Avro 等格式。

这种类型在实践中不是很有用,为完整起见仅在此提及。

声明

  1. NULL
  1. DataTypes.NULL()

JVM 类型

Java 类型输入输出备注
java.lang.ObjectXX缺省
任何类型 (X)任何非基本数据类型

数据类型注解

Flink API 经常尝试使用反射自动从类信息中提取数据类型,以避免重复的手动定义模式工作。然而以反射方式提取数据类型并不总是成功的,因为可能会丢失逻辑信息。因此,可能有必要在类或字段声明附近添加额外信息以支持提取逻辑。

下表列出了可以隐式映射到数据类型而无需额外信息的类:

数据类型
java.lang.StringSTRING
java.lang.BooleanBOOLEAN
booleanBOOLEAN NOT NULL
java.lang.ByteTINYINT
byteTINYINT NOT NULL
java.lang.ShortSMALLINT
shortSMALLINT NOT NULL
java.lang.IntegerINT
intINT NOT NULL
java.lang.LongBIGINT
longBIGINT NOT NULL
java.lang.FloatFLOAT
floatFLOAT NOT NULL
java.lang.DoubleDOUBLE
doubleDOUBLE NOT NULL
java.sql.DateDATE
java.time.LocalDateDATE
java.sql.TimeTIME(0)
java.time.LocalTimeTIME(9)
java.sql.TimestampTIMESTAMP(9)
java.time.LocalDateTimeTIMESTAMP(9)
java.time.OffsetDateTimeTIMESTAMP(9) WITH TIME ZONE
java.time.InstantTIMESTAMP(9) WITH LOCAL TIME ZONE
java.time.DurationINVERVAL SECOND(9)
java.time.PeriodINTERVAL YEAR(4) TO MONTH
byte[]BYTES
T[]ARRAY<T>
java.lang.Map<K, V>MAP<K, V>
structured type Tanonymous structured type T

本文提到的其他 JVM 桥接类都需要 @DataTypeHint 注解。

数据类型提示 可以参数化或替换函数参数和返回值、结构化类或结构化类字段的默认提取逻辑,实现者可以通过声明 @DataTypeHint 注解来选择默认提取逻辑应修改的程度。

@DataTypeHint 注解提供了一组可选的提示参数,以下示例显示了其中一些参数,可以在注解类的文档中找到更多信息。

  1. import org.apache.flink.table.annotation.DataTypeHint;
  2. class User {
  3. // defines an INT data type with a default conversion class `java.lang.Integer`
  4. public @DataTypeHint("INT") Object o;
  5. // defines a TIMESTAMP data type of millisecond precision with an explicit conversion class
  6. public @DataTypeHint(value = "TIMESTAMP(3)", bridgedTo = java.sql.Timestamp.class) Object o;
  7. // enrich the extraction with forcing using a RAW type
  8. public @DataTypeHint("RAW") Class<?> modelClass;
  9. // defines that all occurrences of java.math.BigDecimal (also in nested fields) will be
  10. // extracted as DECIMAL(12, 2)
  11. public @DataTypeHint(defaultDecimalPrecision = 12, defaultDecimalScale = 2) AccountStatement stmt;
  12. // defines that whenever a type cannot be mapped to a data type, instead of throwing
  13. // an exception, always treat it as a RAW type
  14. public @DataTypeHint(allowRawGlobally = HintFlag.TRUE) ComplexModel model;
  15. }
  1. import org.apache.flink.table.annotation.DataTypeHint
  2. class User {
  3. // defines an INT data type with a default conversion class `java.lang.Integer`
  4. @DataTypeHint("INT")
  5. var o: AnyRef
  6. // defines a TIMESTAMP data type of millisecond precision with an explicit conversion class
  7. @DataTypeHint(value = "TIMESTAMP(3)", bridgedTo = java.sql.Timestamp.class)
  8. var o: AnyRef
  9. // enrich the extraction with forcing using a RAW type
  10. @DataTypeHint("RAW")
  11. var modelClass: Class[_]
  12. // defines that all occurrences of java.math.BigDecimal (also in nested fields) will be
  13. // extracted as DECIMAL(12, 2)
  14. @DataTypeHint(defaultDecimalPrecision = 12, defaultDecimalScale = 2)
  15. var stmt: AccountStatement
  16. // defines that whenever a type cannot be mapped to a data type, instead of throwing
  17. // an exception, always treat it as a RAW type
  18. @DataTypeHint(allowRawGlobally = HintFlag.TRUE)
  19. var model: ComplexModel
  20. }