大数据常用软件安装指南

为方便大家查阅,本仓库所有软件的安装方式单独整理如下:

一、基础软件安装

  1. Linux 环境下 JDK 安装
  2. Linux 环境下 Python 安装
  3. 虚拟机静态 IP 及多 IP 配置

二、Hadoop

  1. Hadoop 单机环境搭建
  2. Hadoop 集群环境搭建
  3. 基于 Zookeeper 搭建 Hadoop 高可用集群

三、Spark

  1. Spark 开发环境搭建
  2. 基于 Zookeeper 搭建 Spark 高可用集群
  1. Flink Standalone 集群部署

五、Storm

  1. Storm 单机环境搭建
  2. Storm 集群环境搭建

六、HBase

  1. HBase 单机环境搭建
  2. HBase 集群环境搭建

七、Flume

  1. Linux 环境下 Flume 的安装部署

八、Azkaban

  1. Azkaban3.x 编译及部署

九、Hive

  1. Linux 环境下 Hive 的安装部署

十、Zookeeper

  1. Zookeeper 单机环境和集群环境搭建

十一、Kafka

  1. 基于 Zookeeper 搭建 Kafka 高可用集群

版本说明

由于 Apache Hadoop 原有安装包之间兼容性比较差,所以如无特殊需求,本仓库一律选择 CDH (Cloudera’s Distribution, including Apache Hadoop) 版本的安装包。它基于稳定版本的 Apache Hadoop 构建,并做了兼容性测试,是目前生产环境中使用最为广泛的版本。

最新的 CDH 5 的下载地址为:http://archive.cloudera.com/cdh5/cdh/5/ 。这个页面很大且加载速度比较慢,需要耐心等待页面加载完成。上半部分是文档链接,后半部分才是安装包。同一个 CDH 版本的不同框架间都做了集成测试,可以保证没有任何 JAR 包冲突。安装包包名通常如下所示,这里 CDH 版本都是 5.15.2 ,前面是各个软件自己的版本 ,未避免出现不必要的 JAR 包冲突,请务必保持 CDH 的版本一致

  1. hadoop-2.6.0-cdh5.15.2.tar.gz
  2. hbase-1.2.0-cdh5.15.2
  3. hive-1.1.0-cdh5.15.2.tar.gz