启发式索引器 - 开发人员

组件

IndexerCommand

将索引器公开为一个可执行文件,接受输出文件系统和位置、索引类型、表、列和分区等参数。提供包含使用信息的帮助对话框。

IndexerFactory

  • 接受表、列、数据源、索引存储、索引类型等参数,创建一个针对相应的 Datasource、IndexStore 和 Index 进行配置的索引器。
  • 将通过完全限定表名识别数据源类型。
  • 对于 HDFS 等数据源,生成器还将查询表元数据并识别数据文件的格式(例如 ORC 和 Parquet),还创建相应的 Datasource。此外,还将从目录文件中读取配置值来识别输出 IndexStore。
  • 设置指定的索引类型

IndexWriter

  • IndexWriter 会通过 IndexerFactory 将所需的 Datasource、IndexStore 和 Index 注入到其自身中。
  • 它将调用 Datasource 来读取记录,让 Index 创建指定的索引,然后将其持久化到 IndexStore 中。

IndexClient

  • 帮助从 IndexStore 中读取 Index 文件。
  • 允许删除和显示 Index 文件。

DataSource

  • 所有支持的数据源必须实现的接口。
  • 这将允许我们插入任何数据源,只要该数据源实现了所需的操作(如读取拆分)即可。
  • 每个实现都是一个插件。

HiveDataSource

  • Hive 表的 Datasource 实现。
  • 该实现将检查表的元数据,然后将工作委托给 ORC 或 Parquet 数据源(当前仅支持 ORC)。

HdfsOrcDataSource

  • HDFS ORC 文件的 Datasource 实现
  • 读取 ORC 文件并为文件中的每个带区创建一个拆分。

IndexStore

  • 表示用于存储索引的通用存储。
  • 为每个要实现的存储提供抽象读取/写入方法。
  • 每个实现都是一个插件。

LocalIndexStore

  • 支持将索引写入到本地文件系统中。

HdfsIndexStore

  • 支持将索引写入到 HDFS 中。

Index

  • 表示通用索引类型。
  • 为每个要实现的索引类型提供抽象方法。
  • 每个实现都是一个插件。

BloomIndex

  • 基于 BloomFilter 创建 Index。

BitmapIndex

  • 基于位图索引创建 Index。

MinMaxIndex

  • 该 Index 仅存储拆分中的最小值和最大值。