怎么实现Spark2.x BlockManager原理剖析


这篇文章将为大家详细讲解有关怎么实现Spark2.x BlockManager原理剖析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、概述
BlockManager是Spark底层负责数据的读写和管理的一个模块。对于每一个Spark任务,Driver节点都会有一个BlockManagerMaster 实例,而每一个Executor上都对应的有一个BlockManager实例,它也构成了一套Master/Slaver架构的数据管理体系,比如ShuffleWriter都是通过将BlockManager将数据写入磁盘或者内容、各个Task在拉取数据的时候也是通过BlockManger建立连接,然后去拉取数据。这里我们先对BlockManager的原理做一个简单的介绍。

二、图解BlockManager整体架构下面详细讲解这个架构图:
1.由BlockManager原理架构图可以看出对于每个Spark任务,Driver都会初始化一个BlockManagerMaster实例,初始化同时也会创建一个BlockManagerMasterEndPoint实例,BlockManagerMasterEndpoint是一个ThreadSafeRpcEndpoint类,接收Executor中Blockmanager的消息请求,进行对应的处理。SparkEnv类中的实现代码如下:2.在BlockManagerMasterEndPoint中管理着一组HashMap数据结构BlockManagerInfo信息,保存着BlockManagerId与BlockManagerInfo的对应关系,这里相当于管理者每个Executor中的Block的元数据信息,比如各个BlockManager端新增、删除了一个Block后,这里对应也要更新对应的元数据信息,BlockManagerMasterEndPoint类实现代码如下:3.BlockManagerInfo里面保存着所在Executor所有Block的状态信息,这里也是一个HashMap结构,保存着block与其BlockStatus信息,BlockManagerInfo类代码实现如下:
Driver端总结一下,其实就是通过BlockManagerMaster维护各个节点Block元数据信息,比如各个BlockManager端的Block发生增、删、改等操作,都会在这里进行更新。4.在Executor端的都有一个BlockManager实例,它有四个比较重要的组件,这里大体介绍下,后面源码剖析会作详细介绍:1).DiskStore 负责磁盘数据的读写操作;2).MemoryStore负责内存数据的读写操作; 3).ConnectionManager:负责与其他的BlockManger连接,比如ShuffleReader阶段需要从远程拉取数据,这里负责远程的连接。
4).BlockTransferService这里ConnectionManager与其他的BlockManger连接成功后,负责进行数据的传输。
5.BlockManager创建成功之后的第一件事就是去向BlockManagerMaster进行注册,此时就会在它的blockManagerInfo中添加对应的BlockManagerInfo信息。6.这里有一点需要注意:BlockManager进行数据写操作时,优先将数据写入内存,如果内存不够会根据自己的算法,将内存中的部分数据写入磁盘。此外如果指定了relication副本,就会使用BlockManager将数据复制一份到其他的BlockManager中,所以就会存在一个Block会存在两个BlockManger的情况。7.BlockManager进行数据读取时,比如S 香港云主机huffleReader阶段,如果能从本地读取数据就从本地读,不然会通过ConnectionManager与远程BlockManager节点建立连接,连接成功后,BlockTransferService再去BlockManager节点获取数据。8.只要是BlockManager端对数据进行了增、删、改操作,都会向BlockManagerMaster发送BlockStatus变更的消息通知,然后BlockManagerMaster会更新他自己维护的BlockManagerInfo元数据信息。关于怎么实现Spark2.x BlockManager原理剖析就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

相关推荐: 大数据赋能,如何精细化运营

3月18日,腾讯大数据举办了2018年线下沙龙—深圳站,吸引了深圳互联网圈众多运营&推广的小伙伴踊跃报名参加活动,共同探讨主题:互联网用户增长与运营之道。 信息爆炸的时代,用户的注意力被信息的洪流打碎冲散,品牌想要将自己的内容,被用户的信息触角精准捕捉…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 09/02 18:26
Next 09/02 18:27

相关推荐