书栈网 · BookStack 本次搜索耗时 0.026 秒,为您找到 328 个相关结果.
  • 3.技术选型

    1844 2018-04-11 《大数据实验手册》
    3.Hadoop部署技术选型 一、背景介绍 二、社区版本与第三方发行版本的比较 三、第三方发行版本的比较 四、选择决定 3.Hadoop部署技术选型 一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。 Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apac...
  • 大数据学习路线

    5300 2019-12-08 《大数据入门指南》
    大数据学习路线 一、大数据处理流程 1.1 数据收集 1.2 数据存储 1.3 数据分析 1.4 数据应用 1.5 其他框架 二、学习路线 2.1 语言基础 1. Java 2. Scala 2.2 Linux 基础 2.3 构建工具 2.4 框架学习 1. 框架分类 2. 学习资料 3. 视频学习资料 三、开发工具 ...
  • 使用 Kudu 开发应用程序

    使用 Kudu 开发应用程序 使用 Kudu 开发应用程序 查看 API 文档 C++ API 文档 Java API 文档 工作实例 Maven Artifacts ( Maven 工件 ) Impala命令使用 Kudu 的例子 Kudu 与 Spark 集成 Spark 集成已知问题和限制 Kudu Python 客户端 与 Map...
  • 扇出流

    扇出流 扇出流 如前面章节所述,Flume支持流的扇出形式配置,就是一个source连接多个channel。有两种扇出模式,复制 和 多路复用 。在复制模式下,source中的Event会被发送到与source连接的所有channel上。在多路复用模式下,Event仅被发送到部分channel上。为了分散流量,需要指定好source的所有chan...
  • 传输数据编码格式

    传输数据编码格式 背景 编码格式 使用场景&实例分析 现有编码方式及改进 传输数据编码格式 本文档描述了一种编码算法, 可以把多路/多种分组方式的多条数据流编码成一条Key/Value数据流. 该算法用于跨Task的数据传输和归并. 背景 关于计算和数据模型, 请先参见 Flume-Core . 在逻辑执行计划中, 根据算法的需求, 我...
  • Input

    Input Input 定义所有的数据源(Source),用于Pipeline.read()方法 实现一个Source需要实现四个接口: 有一个input_format属性,是一个flume::Loader 有一个objector属性,是一个Objector 有一个uris属性,返回一个uri列表 有一个transform_from_node方...
  • Flink Data Source

    2334 2019-12-08 《大数据入门指南》
    Flink Data Source 一、内置 Data Source 1.1 基于文件构建 1.2 基于集合构建 1.3 基于 Socket 构建 二、自定义 Data Source 2.1 SourceFunction 2.2 ParallelSourceFunction 和 RichParallelSourceFunction 三、Str...
  • 平滑迁移 HDFS 到 JuiceFS

    平滑迁移 HDFS 到 JuiceFS 方案一:修改 LOCATION 准备阶段 数据迁移阶段 反向迁移 方案二:不修改 LOCATION 准备阶段 数据迁移阶段 反向迁移 平滑迁移 HDFS 到 JuiceFS 大数据平台在不同存储系统之间进行数据迁移通常都是一个大工程,要怎么做到尽量不影响上层业务是一个问题。借助 JuiceFS 特...