用gpload装载数据

Greenplum的gpload工具使用可读外部表和Greenplum并行文件服务器(gpfdist或者gpfdists)来装载数据。它处理并行的基于文件的外部表设置并且允许用户在一个单一配置文件中配置他们的数据格式、外部表定义以及gpfdist或者gpfdists设置。

Note: gpfdist和gpload仅与发布它们的Greenplum数据库主要版本兼容。 例如,与Greenplum Database 4.x一起安装的gpfdist实用程序不能与Greenplum Database 5.x或6.x一起使用。

Note: 如果目标表列名是保留关键字,即包含大写字母,或者包含需要引号(“”)来标识列的任何字符,则不支持MERGE和UPDATE操作。

要使用gpload

  1. 确保环境已经设置好来运行gpload。一些来自于Greenplum数据库安装的依赖文件是必需的,例如gpfdist和Python,还有访问Greenplum的Segment主机的网络。

    详见Greenplum数据库参考指南

  2. 创建装载控制文件。这是一个YAML格式的文件,它指定Greenplum数据库连接信息、gpfdist的配置信息、外表选项和数据格式。

    详见Greenplum数据库参考指南

    例如:

    1. ---
    2. VERSION: 1.0.0.1
    3. DATABASE: ops
    4. USER: gpadmin
    5. HOST: mdw-1
    6. PORT: 5432
    7. GPLOAD:
    8. INPUT:
    9. - SOURCE:
    10. LOCAL_HOSTNAME:
    11. - etl1-1
    12. - etl1-2
    13. - etl1-3
    14. - etl1-4
    15. PORT: 8081
    16. FILE:
    17. - /var/load/data/*
    18. - COLUMNS:
    19. - name: text
    20. - amount: float4
    21. - category: text
    22. - descr: text
    23. - date: date
    24. - FORMAT: text
    25. - DELIMITER: '|'
    26. - ERROR_LIMIT: 25
    27. - LOG_ERRORS: true
    28. OUTPUT:
    29. - TABLE: payables.expenses
    30. - MODE: INSERT
    31. PRELOAD:
    32. - REUSE_TABLES: true
    33. SQL:
    34. - BEFORE: "INSERT INTO audit VALUES('start', current_timestamp)"
    35. - AFTER: "INSERT INTO audit VALUES('end', current_timestamp)"
  3. 运行gpload,传入该装载控制文件。例如:

    1. gpload -f my_load.yml

Parent topic: 装载和卸载数据