SparkSQL简单使用


==>什么是Spark SQL?—>Spark SQL是Spark用来处理结构化数据的一个模块
—>作用:提供一个编程抽象(DataFrame) 并且作为分布式 SQL查询引擎 —>运行原理:将Spark SQL转化为RDD,然后提交到集群执行
—>特点:—-容易整合
—-统一的数据访问方式 —-兼容Hive —-标准的数据连接==>SparkSession —>特点:(2.0引用SparkSession)—-为用户提供一个统一的切入点使用Spark各项功能 —-允许用户通过它调用DataFrame和Dataset相关 API来编写程序 —-减少了用户需要了解的一些概念,可以很容易的与Spark进行交互 —-与Spark交互之时不需要显示的创建SparkConf, SparkContext以及 SQlContext,这些对象已经封闭在SparkSession中==>DataFrames 组织成命名列的数据集,等同于数据库中的表—>与RDD相比较: —-RDD是分布式的Java对象的集合 —-DataFrame是分布式Row对象的集合 —>创建DataFrames—-通过case class创建DataFrames
—-通过SparkSession 创建DataFrames —-使用Json文件来创建DataFrame —> DataFrame操作 香港云主机DataFrame操作也称为无类型的Dataset操作
—-查询所有员工姓名
—-查询所有员工姓名和薪水,并给薪水加 100元
—-查询工资大于2000的员工
—-求每个部门员工数 —-在DataFrame中使用 SQL语句 注:需要首先将DataFrame注册成表(视图)
—>临时视图(2种): —-只在当前会话中有效df.createOrReplaceTempView(“emp1”) —-在全局有效df.createGlobalTempView(“emp2”)

==>Datasets—>数据的分布式集合 —>特点:—-Spark1.6中添加的新接口,是DataFrame之上更高一级的抽象
—-提供了RDD的优点(强类型化,使用lambda函数的能力) —-SparkSQL优化后的执行引擎 —-可以从 JVM对象构造,然后使用函数转换(map, flatMap, filter等)去操作 —-支持Scala和Java,不支持Python —>创建DataSet —-使用序列
—-使用Json数据
—-通过使用DHFS执行WordCount程序==>Datasets操作—>joinWith和join的区别是连接后的新Dataset的schema会不一样

相关推荐: edge浏览器播放视频黑屏怎么办

小编给大家分享一下edge浏览器播放视频黑屏怎么办,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、按组合键“win+r”唤出运行,输入“gpedit.msc”,点击确定。二、在组策…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 07/23 17:15
Next 07/23 17:15

相关推荐