分库分表场景下的数据校验

sync-diff-inspector 支持对分库分表场景进行数据校验。例如有多个 MySQL 实例,当你使用同步工具 TiDB DM 同步到一个 TiDB 时,可以使用 sync-diff-inspector 对上下游数据进行校验。

使用 datasource config 进行配置

使用 Datasource configtable-0 进行特殊配置,设置对应 rules,配置上游表与下游表的映射关系。这种配置方式需要对所有分表进行设置,适合上游分表数量较少,且分表的命名规则没有规律的场景。场景如图所示:

shard-table-sync-1

sync-diff-inspector 完整的示例配置如下:

  1. # Diff Configuration.
  2. ######################### Global config #########################
  3. # 检查数据的线程数量,上下游数据库的连接数会略大于该值
  4. check-thread-count = 4
  5. # 如果开启,若表存在不一致,则输出用于修复的 SQL 语句
  6. export-fix-sql = true
  7. # 只对比表结构而不对比数据
  8. check-struct-only = false
  9. ######################### Datasource config #########################
  10. [data-sources.mysql1]
  11. host = "127.0.0.1"
  12. port = 3306
  13. user = "root"
  14. password = ""
  15. route-rules = ["rule1"]
  16. [data-sources.mysql2]
  17. host = "127.0.0.1"
  18. port = 3306
  19. user = "root"
  20. password = ""
  21. route-rules = ["rule2"]
  22. [data-sources.tidb0]
  23. host = "127.0.0.1"
  24. port = 4000
  25. user = "root"
  26. password = ""
  27. ########################### Routes ###########################
  28. [routes.rule1]
  29. schema-pattern = "test" # 匹配数据源的库名,支持通配符 "*" 和 "?"
  30. table-pattern = "table-[1-2]" # 匹配数据源的表名,支持通配符 "*" 和 "?"
  31. target-schema = "test" # 目标库名
  32. target-table = "table-0" # 目标表名
  33. [routes.rule2]
  34. schema-pattern = "test" # 匹配数据源的库名,支持通配符 "*" 和 "?"
  35. table-pattern = "table-3" # 匹配数据源的表名,支持通配符 "*" 和 "?"
  36. target-schema = "test" # 目标库名
  37. target-table = "table-0" # 目标表名
  38. ######################### Task config #########################
  39. [task]
  40. output-dir = "./output"
  41. source-instances = ["mysql1", "mysql2"]
  42. target-instance = "tidb0"
  43. # 需要比对的下游数据库的表,每个表需要包含数据库名和表名,两者由 `.` 隔开
  44. target-check-tables = ["test.table-0"]

当上游分表较多,且所有分表的命名都符合一定的规则时,则可以使用 table-rules 进行配置。场景如图所示:

shard-table-sync-2

sync-diff-inspector 完整的示例配置如下:

  1. # Diff Configuration.
  2. ######################### Global config #########################
  3. # 检查数据的线程数量,上下游数据库的连接数会略大于该值
  4. check-thread-count = 4
  5. # 如果开启,若表存在不一致,则输出用于修复的 SQL 语句
  6. export-fix-sql = true
  7. # 只对比表结构而不对比数据
  8. check-struct-only = false
  9. ######################### Datasource config #########################
  10. [data-sources.mysql1]
  11. host = "127.0.0.1"
  12. port = 3306
  13. user = "root"
  14. password = ""
  15. route-rules = ["rule1"]
  16. [data-sources.mysql2]
  17. host = "127.0.0.1"
  18. port = 3306
  19. user = "root"
  20. password = ""
  21. route-rules = ["rule1"]
  22. [data-sources.tidb0]
  23. host = "127.0.0.1"
  24. port = 4000
  25. user = "root"
  26. password = ""
  27. ########################### Routes ###########################
  28. [routes.rule1]
  29. schema-pattern = "test" # 匹配数据源的库名,支持通配符 "*" 和 "?"
  30. table-pattern = "table-*" # 匹配数据源的表名,支持通配符 "*" 和 "?"
  31. target-schema = "test" # 目标库名
  32. target-table = "table-0" # 目标表名
  33. ######################### Task config #########################
  34. [task]
  35. output-dir = "./output"
  36. source-instances = ["mysql1", "mysql2"]
  37. target-instance = "tidb0"
  38. # 需要比对的下游数据库的表,每个表需要包含数据库名和表名,两者由 `.` 隔开
  39. target-check-tables = ["test.table-0"]

注意事项

如果上游数据库有 test.table-0 也会被下游数据库匹配到。