Apache Spark SQL入门及实践的实例分析


Apache Spark SQL入门及实践的实例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Apache SparkSQL是一个重要的Spark模块,我们可以使用Python、Java和Scala中的DataFrame和DataSet简化结构化数据处理流程,该过程从企业收集数据并形成分布式数据集合。使用Spark SQL,我们可以从Spark程序内部通过标准数据库连接器(JDBC/ODBC)连接到Spark SQL外部工具查询数据。
下面介绍了Spark SQL体系结构组件,比如DataSets和DataFrames;在Apache Spark中使用Spark SQL以及其优劣等内容。Apache Spark SQL教程Spark SQL简介Apache SparkSQL是Spark中结构化数据处理模块。使用Spark SQL提供的接口,我们可以获得有关数据结构和执行计算等信息。有了这些信息,我们就可以在Apache Spark中实现优化,通过DataFrame和Dataset API等方式与Spark SQL交互。无论使用哪种API或语言表达计算,在计算结果时都使用相同 香港云主机的执行引擎。因此,用户可以容易地在不同API间切换。在Apache Spark SQL中,我们可以通过四种方式使用结构化和半结构化数据:为了简化结构化数据使用,它提供了Python,Java和Scala中的DataFrame抽象,提供了很好的优化技术。可读取和写入多种格式数据,比如JSON、Hive Tables和Parquet。使用SQL,我们可以从Spark程序内外部工具中查询数据,外部工具通过标准数据库连接器(JDBC/ODBC)连接到Spark SQL。使用Spark SQL的最佳方法是在Spark应用程序中,这使我们能够加载数据并使用SQL进行查询。同时,我们还可以将它与Python、Java或Scala中的“常规”程序代码结合使用。SQL从其他编程语言运行的结果将是数据集或数据框架,与SQL接口的交互使用命令行或JDBC/ODBC进行。Spark SQL DataFramesRDD存在一些局限性,使用结构化数据没有内置的优化引擎,开发人员必须优化每个RDD。此外,没有规定处理结构化数据。Spark SQL中的DataFrame克服了RDD限制。Spark DataFrame是Spark 1.3版本,它是按命名列排序的分布式数据集。从概念来看,它等同于关系数据库中的表或R/Python中的数据框架,我们可以使用以下方法创建DataFrame:结构化数据文件Hive中的表格外部数据库使用现有的RDDSpark SQL数据集Spark Dataset是Spark 1.6版本中添加的接口,它是一个分布式数据集合。我们可以用JVM对象创建数据集,之后使用功能转换(映射,过滤器等)对其进行操作,使用Scla和Java访问数据集API。Python不支持Dataset API,但由于Python的动态特性,可以使用Dataset API的许多好处,R也如此。Spark Catalyst OptimizerSpark SQL使用的优化器是Catalyst,它优化了用Spark SQL和DataFrame DSL编写的所有查询。优化器帮助我们以比RDD对应方式更快的速度运行查询,这提高了系统性能。Spark Catalyst是一个基于规则的系统构建库,每条规则都侧重于具体优化。例如,ConstantFolding的重点是从查询中消除常量表达式。Apache Spark SQL的使用执行SQL查询;我们可以使用SparkSQL从existingHive安装中读取数据;当我们在另一种编程语言中运行SQL时,我们将得到结果作为数据集/数据框架。由Spark SQL定义的函数内置功能:提供内置函数处理列值,可以使用以下命令访问内置函数:用户定义函数(UDF):UDF允许根据Scala规则创建用户定义函数。聚合函数:它们对一组行进行操作,并计算每组的返回值。窗口化聚合(Windows):对一组行进行操作,并为组中的每一行计算返回值。Spark SQL的优点在本节中,我们将讨论Apache Spark SQL的各种优点:1、集成Apache Spark SQL将SQL查询与Spark程序集成。在Spark SQL的帮助下,我们可以将结构化数据作为分布式数据集(RDD)查询,可以使用Spark SQL紧密集成属性与复杂的分析算法一起运行SQL查询。2、统一数据访问使用Spark SQL,我们可以加载和查询不同来源数据。Schema-RDD允许单个接口高效处理结构化数据。例如,Apache Hive tables, parquet files, and JSON files.3、高兼容性在Apache Spark SQL中,我们可以在现有仓库上运行未修改的Hive查询,允许使用Hive前端和MetaStore完全兼容现有Hive数据,查询和UDF。4、标准连接可通过JDBC或ODBC连接,包括具有行业标准JDBC和ODBC连接的服务器模式。5、可扩展性为了支持查询容错和大型作业,它利用了RDD模型,使用相同的引擎进行交互式查询。6、性能优化Spark SQL中的查询优化引擎在整个计划中选择最佳的执行计划。7、用于批处理Hive表使用Spark SQL快速批处理Hive表。Spark SQL的缺点除了这些功能外,Spark SQL还有一些缺点:不支持Union类型;无法创建或读取包含union字段的表;插入超大Varchar类型不提示错误,即使插入值超出大小限制,也不会发生错误。如果从Hive读取,则相同的数据将截断,但如果从Spark读取则不会截断。SparkSQL会将varchar视为字符串,这意味着没有大小限制;不支持Transactional表;Spark SQL不支持Hive事务;不支持char类型:无法阅读或创建包含此类字段的表格;Avro表不支持时间戳看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注开发云行业资讯频道,感谢您对开发云的支持。

相关推荐: EasyDefineMVC中怎么实现一个简单查询

这期内容当中小编将会给大家带来有关EasyDefineMVC中怎么实现一个简单查询,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。上述就是小编为大家分享的EasyDefineMVC中怎么实现一个简单查询了,如果刚好有类似的疑惑…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 09/23 17:44
下一篇 09/23 17:44

相关推荐