Spark SQL数据加载和保存实战

1524990177 • 07/24 17:23 • Linux技术 • 130 views

一：前置知识详解：
SparkSQL重要是操作DataFrame，DataFrame本身提供了save和load的操作，
Load：可以创建DataFrame，
Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。
二：Spark SQL读写数据代码实战：读取过程源码分析如下：
1. read方法返回DataFrameR 香港云主机eader，用于读取数据。至此，数据的读取工作就完成了，下面就对DataFrame进行操作。
下面就是写操作！！！
1. 调用DataFrame中select函数进行对列筛选三：Spark SQL读写整个流程图如下：四：对于流程中部分函数源码详解：
DataFrameReader.Load（）
1. Load（）返回DataFrame类型的数据集合，使用的数据是从默认的路径读取。在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。DataFrameReader.format()
1. Format：具体指定文件格式，这就获得一个巨大的启示是：如果是Json文件格式可以保持为Parquet等此类操作。
Spark SQL在读取文件的时候可以指定读取文件的类型。例如，Json,Parquet.DataFrame.write()
1. 创建DataFrameWriter实例以DataFrame的方式向外部存储系统中写入数据。DataFrameWriter.mode()
1. Overwrite是覆盖，之前写的数据全都被覆盖了。
Append:是追加，对于普通文件是在一个文件中进行追加，但是对于parquet格式的文件则创建新的文件进行追加。其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。DataFrame.Scala中部分函数详解：
1. toDF函数是将RDD转换成DataFrame追踪showString源码如下：showString中触发action收集数据。

相关推荐: Windows hello无法识别一直提示正在寻找怎么办

这篇文章主要介绍了Windows hello无法识别一直提示正在寻找怎么办，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。一、按下Windows+i 组合件打开Windows 设置，点击“账户（你…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。