Spark的transformation和action算子简介


返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素 香港云主机组成 返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成 类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,而不是单一元素) 类似于map,对RDD的每个分区起作用,在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]根据给定的随机种子seed,随机抽样出数量为fraction的数据 通过管道的方式对RDD的每个分区使用shell命令进行操作,返回对应的结果 返回一个新的数据集,由原数据集合参数联合而成 求两个RDD的交集 返回一个包含源数据集中所有不重复元素的i新数据集 在一个由(K,v)对组成的数据集上调用,返回一个(K,Seq[V])对组成的数据集。默认情况下,输出结果的并行度依赖于父RDD的分区数目,如果想要对key进行聚合的话,使用reduceByKey或者combineByKey会有更好的性能在一个(K,V)对的数据集上使用,返回一个(K,V)对的数据集,key相同的值,都被使用指定的reduce函数聚合到一起,reduce任务的个数是可以通过第二个可选参数来配置的在类型为(K,V)的数据集上调用,返回以K为键进行排序的(K,V)对数据集,升序或者降序有boolean型的ascending参数决定 在类型为(K,V)和(K,W)类型的数据集上调用,返回一个(K,(V,W))对,每个key中的所有元素都在一起的数据集 在类型为(K,V)和(K,W)类型的数据集上调用,返回一个数据集,组成元素为(K,Iterable[V],Iterable[W]) tuples 笛卡尔积,但在数据集T和U上调用时,返回一个(T,U)对的数据集,所有元素交互进行笛卡尔积 对RDD中的分区减少指定的数目,通常在过滤完一个大的数据集之后进行此操作 将RDD中所有records平均划分到numparitions个partition中 通过函数func聚集数据集中的所有元素,这个函数必须是关联性的,确保可以被正确的并发执行 在driver的程序中,以数组的形式,返回数据集的所有元素,这通常会在使用filter或者其它操作后,返回一个足够小的数据子集再使用 返回数据集的元素个数 返回数据集的第一个元素(类似于take(1)) 返回一个数组,由数据集的前n个元素组成。注意此操作目前并非并行执行的,而是driver程序所在机器 返回一个数组,在数据集中随机采样num个元素组成,可以选择是否用随机数替换不足的部分,seed用于指定的随机数生成器种子 将数据集的元素,以textfile的形式保存到本地文件系统hdfs或者任何其他Hadoop支持的文件系统,spark将会调用每个元素的toString方法,并将它转换为文件中的一行文本排序后的limit(n) 将数据集的元素,以sequencefile的格式保存到指定的目录下,本地系统,hdfs或者任何其他hadoop支持的文件系统,RDD的元素必须由key-value对组成。并都实现了hadoop的writable接口或隐式可以转换为writable使用Java的序列化方法保存到本地文件,可以被sparkContext.objectFile()加载
countByKey()
对(K,V)类型的RDD有效,返回一个(K,Int)对的map,表示每一个可以对应的元素个数 在数据集的每一个元素上,运行函数func,t通常用于更新一个累加器变量,或者和外部存储系统做交互

相关推荐: 电脑黑屏故障如何排除

这篇文章主要介绍了电脑黑屏故障如何排除的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇电脑黑屏故障如何排除文章都会有所收获,下面我们一起来看看吧。电脑黑屏怎么办?如果打开电脑却什么反应也没有,不要第一反应就是电脑坏了,应该检查主供电…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 07/23 16:31
Next 07/23 16:32

相关推荐