启发式索引

hetu-heuristic-index-cli模块

此模块用于 CLI 访问启发式索引。对索引 CLI 所做的任何更改都应该在此处进行。

IndexerCommand

将索引公开为一个可执行文件,接受输出文件系统和位置、索引类型、表、列和分区等参数。提供包含使用信息的帮助对话框。

hetu-heuristic-index模块

此模块包含除 CLI 之外的所有启发式索引实现。这些实现分为两个包:

  • 核心组件:工厂、索引访问器/变异器、常量等。目前放置于io.hetu.core.heuristicindex
  • 插件:不同数据源和索引的实现。目前放置于io.hetu.core.plugin.heuristicindex

核心组件

启发式索引的核心组件为 IndexFactoryIndexClientIndexWriter

HeuristicIndexerFactory

  • 接受表、列、数据源、索引存储、索引类型等参数,创建一个针对相应的 Datasource、IndexStore 和 Index 进行配置的索引。

  • 将通过完全限定表名识别数据源类型。

  • 对于 HDFS 等数据源,生成器还将查询表元数据并识别数据文件的格式(例如 ORC 和 Parquet),还创建相应的 Datasource。此外,还将从目录文件中读取配置值来识别输出 IndexStore。

  • 设置指定的索引类型

它是 IndexFactory 接口的唯一实现。

HeuristicIndexWriter

  • IndexWriter 会通过 IndexerFactory 将所需的 Datasource、IndexStore 和 Index 注入到其自身中。

  • 它将调用 Datasource 来读取记录,让 Index 创建指定的索引,然后将其持久化到 IndexStore 中。

它是 IndexWriter 接口的唯一实现。

HeuristicIndexClient

  • 帮助从 IndexStore 中读取 Index 文件。

  • 允许删除和显示 Index 文件。

它是 IndexClient 接口的唯一实现。

插件

启发式索引支持新数据源和自定义索引的插件。

DataSource

  • 所有支持的数据源必须实现的接口。
  • 这将允许我们插入任何数据源,只要该数据源实现了所需的操作(如读取分片)即可。
  • 每个实现都是一个插件。
HiveDataSource
  • Hive 表的 Datasource 实现。
  • 该实现将检查表的元数据,然后将工作委托给 ORC 或 Parquet 数据源(当前仅支持 ORC)。
HdfsOrcDataSource
  • HDFS ORC 文件的 Datasource 实现
  • 读取 ORC 文件并为文件中的每个带区创建一个分片。

索引

  • 表示通用索引类型。
  • 为每个要实现的索引类型提供抽象方法。
  • 每个实现都是一个插件。

BloomIndex

  • 基于 BloomFilter 创建 Index。

BitmapIndex

  • 基于位图索引创建 Index。

MinMaxIndex

  • 该 Index 仅存储分片中的最小值和最大值。