一次性HDFS协议安装

按下列步骤安装并配置与gphdfs一起使用的Hadoop:

  1. 所有Greenplum数据库主机上安装Java 1.7或者更高的版本,包括Master、Segment以及后备Master。
  2. 在所有主机上安装一个兼容的Hadoop发布。该发布在所有的主机上都应该相同。Hadoop安装信息可以参考Hadoop发布文档。

    有关兼容的Hadoop发布的信息,请见Greenplum数据库发行注记

  3. 安装后,确保Greenplum系统用户(gpadmin)对Hadoop库或者Greenplum的MR客户端具有读和执行权限。

  4. 所有Segment上设置下列环境变量:

    • JAVA_HOME – Java主目录
    • HADOOP_HOME – Hadoop主目录

    例如,增加下面这样的行到gpadmin用户的.bashrc配置中。

    1. export JAVA_HOME=/usr/java/default
    2. export HADOOP_HOME=/usr/lib/gphd

    这些变量必须在~gpadmin/.bashrc或者~gpadmin/.bash_profile文件中设置,这样gpadmin用户的shell环境才能定位Java和Hadoop的主目录。

  5. 设置下列Greenplum数据库服务器配置参数并且重启Greenplum数据库。

    表 1. Hadoop目标的服务器配置参数
    配置参数描述默认值设置级别
    gp_hadoop_target_versionHadoop目标。选择下列之一。

    cdh5

    cdh4.1

    hdp2

    gpmr-1.2

    hadoop2

    gphd-1.1master

    session

    reload
    gp_hadoop_home如果有Pivotal HD,这个参数指定Hadoop的安装目录。例如,默认的安装目录是/usr/lib/gphd。

    在使用Greenplum HD 1.2或者更早的版本时,指定与HADOOP_HOME环境变量相同的值。

    NULLmaster

    session

    reload

    例如,下列命令使用Greenplum数据库工具gpconfig以及gpstop来设置服务器参数并且重启Greenplum数据库:

    1. gpconfig -c gp_hadoop_target_version -v "'hdb2'"
    2. gpstop -u

    有关Greenplum数据库工具gpconfig和gpstop的信息,请见Greenplum数据库工具指南。

  6. 如果需要,确保$GPHOME/lib/hadoop/hadoop_env.sh文件在每一个Greenplum数据库主机上生成的CLASSPATH环境变量包含gphdfs所需的Java类所在的JAR文件的路径。

    例如,如果gphdfs返回一个类为找到异常,确保含有该类的JAR文件在每一个Greenplum数据库主机上并且更新$GPHOME/lib/hadoop/hadoop_env.sh文件,这样该文件生成的CLASSPATH环境变量将包含该JAR文件。

上级主题: 使用Hadoop分布式文件系统(HDFS)表