Pulsar SQL Overview

Apache Pulsar 用于存储事件数据流,事件数据结构由预定义字段组成。 借助 Schema Registry 的实现,你可以在 Pulsar 中存储结构化数据,并通过使用Trino(原先叫 Presto SQL)查询这些数据。

作为 Pulsar SQL 的核心,Presto Pulsar 连接器支持 Presto 集群中的 Presto worker 查询 Pulsar 数据。

Pulsar的消费者和读取器接口

查询性能高效且高度可扩展,这得益于 Pulsar 的 分层分片架构

Pulsar 中的主题以分片形式存储在 Apache BookKeeper 中。 每个主题分片会被复制到多个 BookKeeper 节点,可以支撑并发读和高吞吐。 你可以配置 BookKeeper 节点的数量,默认节点数是 3。 在 Presto Pulsar 连接器中,数据直接从 BookKeeper 读取,所以 Presto worker 能从水平扩展的 BookKeeper 节点中并发读取数据。

Pulsar的消费者和读取器接口