游侠云服务,国外稳定安全免备案的服务器

统一声明:

1.本站联系方式QQ:1754646538 TG:UXYM_NET 没有频道!如果有其他人通过本站链接联系您导致被骗,本站一律不负责!
2.需要付费搭建请联系站长QQ:1754646538 TG:UXYM_NET
3.国外免备案服务器- 游侠云服务
4.免实名域名注册购买- 游侠云域名

资源名称:Apache Spark源码剖析

内容简介:

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。

《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。

资源目录:

第一部分Spark概述1

第1章初识Spark 3

1.1 大数据和Spark 3

1.1.1 大数据的由来4

1.1.2 大数据的分析4

1.1.3 Hadoop 5

1.1.4 Spark简介6

1.2 与Spark的第一次亲密接触7

1.2.1 环境准备7

1.2.2 下载安装Spark 8

1.2.3 Spark下的WordCount 8

第二部分Spark核心概念13

第2章Spark整体框架 15

2.1 编程模型15

2.1.1 RDD 17

2.1.2 Operation 17

2.2 运行框架18

2.2.1 作业提交18

2.2.2 集群的节点构成18

2.2.3 容错处理19

2.2.4 为什么是Scala 19

2.3 源码阅读环境准备19

2.3.1 源码下载及编译19

2.3.2 源码目录结构21

2.3.3 源码阅读工具21

2.3.4 本章小结22

第3章SparkContext初始化 23

3.1 spark-shell 23

3.2 SparkContext的初始化综述27

3.3 Spark Repl综述30

3.3.1 Scala Repl执行过程31

3.3.2 Spark Repl 32

第4章Spark作业提交 33

4.1 作业提交33

4.2 作业执行38

4.2.1 依赖性分析及Stage划分39

4.2.2 Actor Model和Akka 46

4.2.3 任务的创建和分发47

4.2.4 任务执行53

4.2.5 Checkpoint和Cache 62

4.2.6 WebUI和Metrics 62

4.3 存储机制71

4.3.1 Shuffle结果的写入和读取71

4.3.2 Memory Store 80

4.3.3 存储子模块启动过程分析81

4.3.4 数据写入过程分析82

4.3.5 数据读取过程分析84

4.3.6 TachyonStore 88

第5章部署方式分析 91

5.1 部署模型91

5.2 单机模式local 92

5.3 伪集群部署local-cluster 93

5.4 原生集群Standalone Cluster 95

5.4.1 启动Master 96

5.4.2 启动Worker 97

5.4.3 运行spark-shell 102

5.4.4 容错性分析106

5.5 Spark On YARN 112

5.5.1 YARN的编程模型112

5.5.2 YARN中的作业提交112

5.5.3 Spark On YARN实现详解113

5.5.4 SparkPi on YARN 122

第三部分Spark Lib 129

第6章Spark Streaming 131

6.1 Spark Streaming整体架构131

6.1.1 DStream 132

6.1.2 编程接口133

6.1.3 Streaming WordCount 134

6.2 Spark Streaming执行过程135

6.2.1 StreamingContext初始化过程136

6.2.2 数据接收141

6.2.3 数据处理146

6.2.4 BlockRDD 155

6.3 窗口操作158

6.4 容错性分析159

6.5 Spark Streaming vs. Storm 165

6.5.1 Storm简介165

6.5.2 Storm和Spark Streaming对比168

6.6 应用举例168

6.6.1 搭建Kafka Cluster 168

6.6.2 KafkaWordCount 169

第7章SQL 173

7.1 SQL语句的通用执行过程分析175

7.2 SQL On Spark的实现分析178

7.2.1 SqlParser 178

7.2.2 Analyzer 184

7.2.3 Optimizer 191

7.2.4 SparkPlan 192

7.3 Parquet 文件和JSON数据集196

7.4 Hive简介197

7.4.1 Hive 架构197

7.4.2 HiveQL On MapReduce执行过程分析199

7.5 HiveQL On Spark详解200

7.5.1 Hive On Spark环境搭建206

7.5.2 编译支持Hadoop 2.x的Spark 211

7.5.3 运行Hive On Spark测试用例213

第8章GraphX 215

8.1 GraphX简介215

8.1.1 主要特点216

8.1.2 版本演化216

8.1.3 应用场景217

8.2 分布式图计算处理技术介绍218

8.2.1 属性图218

8.2.2 图数据的存储与分割219

8.3 Pregel计算模型220

8.3.1 BSP 220

8.3.2 像顶点一样思考220

8.4 GraphX图计算框架实现分析223

8.4.1 基本概念223

8.4.2 图的加载与构建226

8.4.3 图数据存储与分割227

8.4.4 操作接口228

8.4.5 Pregel在GraphX中的源码实现230

8.5 PageRank 235

8.5.1 什么是PageRank 235

8.5.2 PageRank核心思想235

第9章MLLib 239

9.1 线性回归239

9.1.1 数据和估计240

9.1.2 线性回归参数求解方法240

9.1.3 正则化245

9.2 线性回归的代码实现246

9.2.1 简单示例246

9.2.2 入口函数train 247

9.2.3 最优化算法optimizer 249

9.2.4 权重更新update 256

9.2.5 结果预测predict 257

9.3 分类算法257

9.3.1 逻辑回归258

9.3.2 支持向量机260

9.4 拟牛顿法261

9.4.1 数学原理261

9.4.2 代码实现265

9.5 MLLib与其他应用模块间的整合268

第四部分附录271

附录A Spark源码调试 273

附录B 源码阅读技巧 283

资源截图:

Apache Spark源码剖析
收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!17131833@qq.com 2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励! 3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负! 4. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有站币奖励和额外收入!

源雷 云计算教程 Apache Spark源码剖析 https://www.mubanke.com/58447.html

linux教程windows教程云计算大数据

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长QQ:1754646538 提供付款信息为您处理。

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源。