本篇文章给大家分享的是有关Spark Streaming + Spark SQL如何实现配置化ETL,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。传统的Spark Streaming程序需要:构建StreamingContext设置checkpoint链接数据源各种transformforeachRDD 输出通常而言,你可能会因为要走完上面的流程而构建了一个很大的程序,比如一个main方法里上百行代码,虽然在开发小功能上足够便利,但是复用度更方面是不够的,而且不利于协作,所以需要一个更高层的开发包提供支持。我只要在配置文件添加如下一个job配置,就可以作为标准的的Spark Streaming 程序提交运行:上面的配置相当于完成了如下的一个流程:从Kafka消费数据将Kafka数据转化为表通过SQL进行处理打印输出是不是很简单,而且还可以支持热加载,动态添加job等该实现的特性有:配置化支持多Job配置支持各种数据源模块支持通过SQL完成数据处理支持多种输出模块未来可扩展的支持包含:动态添加或者删除job更新,而不用重启Spark Streaming支持Storm等其他流式引擎更好的多job互操作该实现完全基于ServiceframeworkDispatcher 完成,核心功能大概只花了三个小时。这里我们先理出几个概念:Spark Streaming 定义为一个App每个Action定义为一个Job.一个App可以包含多个Job配置文件结构设计如下:一个完整的App 对应一个配置文件。每个顶层配置选项,如job1,job2分别对应一个工作流。他们最终都会运行在一个App上(Spark Streaming实例上)。strategy 用来定义如何组织 compositor,algorithm, ref 的调用关系algorithm作为数据来源compositor 数据处理链路模块。大部分情况我们都是针对该接口进行开发ref 是对其他job的引用。通过配合合适的strategy,我们将多个job组织成一个新的job每个组件( compositor,algorithm, strategy) 都支持参数配置上面主要是解析了配置文件的形态,并且S开发云主机域名erviceframeworkDispatcher 已经给出了一套接口规范,只要照着实现就行。那对应的模块是如何实现的?本质是将上面的配置文件,通过已经实现的模块,转化为Spark Streaming程序。以SQLCompositor 的具体实现为例:上面的代码就完成了一个SQL模块。那如果我们要完成一个自定义的.map函数呢?可类似下面的实现:同理你可以实现filter,repartition等其他函数。该方式提供了一套更为高层的API抽象,用户只要关注具体实现而无需关注Spark的使用。同时也提供了一套配置化系统,方便构建数据处理流程,并且复用原有的模块,支持使用SQL进行数据处理。以上就是Spark Streaming + Spark SQL如何实现配置化ETL,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注开发云行业资讯频道。
相关推荐: Telerik UI for Xamarin怎么构建移动应用原生UI
本篇内容主要讲解“Telerik UI for Xamarin怎么构建移动应用原生UI”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Telerik UI for Xamarin怎么构建移动应用原生UI”吧!Tele…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。