一:简介 键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对 RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转 化、装载)操作来将数据转化为键值对形式。 ...阅读全文
无情 @ 2017-05-31 14:36:58 阅读(5442) 详情
RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定数据存储到内存和磁盘中,掌握了RDD编程是SPARK开发的第一步 ...阅读全文
无情 @ 2017-05-25 11:47:12 阅读(3850) 详情
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎, 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。 ...阅读全文
无情 @ 2017-05-07 15:34:35 阅读(2498) 详情