Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎, 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。 ...阅读全文
无情 @ 2017-05-07 15:34:35 阅读(2498) 详情
RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定数据存储到内存和磁盘中,掌握了RDD编程是SPARK开发的第一步 ...阅读全文
无情 @ 2017-05-25 11:47:12 阅读(3850) 详情
一:简介 键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对 RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转 化、装载)操作来将数据转化为键值对形式。 ...阅读全文
无情 @ 2017-05-31 14:36:58 阅读(5442) 详情
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(action)变得更加迅速(通常快10倍) ...阅读全文
无情 @ 2017-06-02 17:41:17 阅读(10325) 详情
通常,当传递给Spark操作(例如map or reduce)的函数在远程集群节点上执行时,它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器,并且远程机器上的变量的更新都不会被传播回到驱动程序 ...阅读全文
无情 @ 2017-09-07 13:01:45 阅读(3404) 详情
spark2.3.2 源码编译 分类:[ 开源框架 ]
Spark能同Hadoop进行交互,而Hadoop的厂商比较多有很多商业版(如cdh版本hadoop)。Spark官方提供的安装包不一定和我们的Hadoop集群版本相同,如果不相同就有可能出现莫名其妙的错误。这时,我们手工指定相应版本进行编译是最好选择 ...阅读全文
无情 @ 2019-01-13 19:28:59 阅读(648) 详情