TokuDB的数据库文件组织方式比较随意,给我们一种“乱”的假象,今天就来漫谈下TokuDB数据库文件。

    一个“新生”的TokuDB数据库,基础文件是这样的:

    1. tokudb.directory --表/索引文件信息
    2. tokudb.environment --TokuDB版本号信息
    3. tokudb.rollback --undo记录
    4. log000000000001.tokulog27 --redo记录
    5. __tokudb_lock_dont_delete_me_* --文件锁,保证同一个datadir只能被一个TokuDB进程使用

    在test数据库下面新建个表t1,并写几条数据:

    1. CREATE TABLE `t1` (
    2. `a` int(11) NOT NULL,
    3. `b` int(11) DEFAULT NULL,
    4. `c` int(11) DEFAULT NULL,
    5. PRIMARY KEY (`a`),
    6. KEY `bc` (`b`,`c`)
    7. ) ENGINE=TokuDB

    就会发现目录下多出3个文件,表t1:

    1. file1: _test_t1_key_bc_90_3_1b.tokudb --索引(bc)文件
    2. file2: _test_t1_main_90_2_1b.tokudb --主文件
    3. file3: _test_t1_status_90_1_1b.tokudb --表元数据文件

    可以发现每个表最少2个文件,命名规则为:

    1. _database_table_main*.tokudb
    2. _database_table_status*.tokudb

    索引是一个单独的.tokudb文件。

    好了,下面是问题时间。

    问题1: TokuDB如何知道哪些文件属于表t1

    现在来dump下tokudb.directory:

    1. {key={len=17 data="./test/t1-key-bc\000"} xid=0000000000000003 val={len=33 data="./_test_t1_key_bc_90_3_1b.tokudb\000"}}
    2. {key={len=15 data="./test/t1-main\000"} xid=0000000000000002 val={len=31 data="./_test_t1_main_90_2_1b.tokudb\000"}}
    3. {key={len=17 data="./test/t1-status\000"} xid=0000000000000001 val={len=33 data="./_test_t1_status_90_1_1b.tokudb\000"}}

    TokuDB在启动的时候,会读取tokudb.directory,根据key信息组织出表t1的相关文件,并写到information_schema.tokudb_file_map表。

    问题2: TokuDB如何知道表t1有哪些索引以及列信息

    这些信息全部存在_test_t1_status_90_1_1b.tokudb文件里。

    问题3: TokuDB的分区表文件是怎样的

    实验走起来,首先创建一个按时间的分区表t2:

    1. CREATE TABLE `t2` (
    2. `id` bigint(20) NOT NULL AUTO_INCREMENT,
    3. `c1` int(11) DEFAULT NULL,
    4. `date` datetime NOT NULL,
    5. KEY `id` (`id`),
    6. KEY `c1` (`c1`)
    7. ) ENGINE=TokuDB DEFAULT CHARSET=latin1
    8. /*!50100 PARTITION BY RANGE ( TO_DAYS(date))
    9. (PARTITION p201508 VALUES LESS THAN (736176) ENGINE = TokuDB,
    10. PARTITION p201509 VALUES LESS THAN (736207) ENGINE = TokuDB,
    11. PARTITION rxMORES VALUES LESS THAN MAXVALUE ENGINE = TokuDB) */

    现在分区表的文件是什么样的呢?

    1. data/_test_t2_P_p201508_key_c1_ba_4_1b.tokudb
    2. data/_test_t2_P_p201508_key_id_ba_3_1b.tokudb
    3. data/_test_t2_P_p201508_main_ba_2_1b.tokudb
    4. data/_test_t2_P_p201508_status_ba_1_1b.tokudb
    5. data/_test_t2_P_p201509_key_c1_bb_4_1b.tokudb
    6. data/_test_t2_P_p201509_key_id_bb_3_1b.tokudb
    7. data/_test_t2_P_p201509_main_bb_2_1b.tokudb
    8. data/_test_t2_P_p201509_status_bb_1_1b.tokudb
    9. data/_test_t2_P_rxMORES_key_c1_bc_4_1b.tokudb
    10. data/_test_t2_P_rxMORES_key_id_bc_3_1b.tokudb
    11. data/_test_t2_P_rxMORES_main_bc_2_1b.tokudb
    12. data/_test_t2_P_rxMORES_status_bc_1_1b.tokudb

    可以看到每个分区表有4个文件:1个main文件,1个status文件,还有2个key索引文件。 对于分区表来说,总的文件数目基本是:分区数目 * (1 + 1 + 索引数目)。

    所以如果您的分区非常多,open-files-limit 配置可要小心了,要尽可能的大点,否则可能会出现”Too many open files”,从而导致实例crash!

    希望本文能帮助您了解到TokuDB的文件组织结构,祝玩得开心!