怎么快速搭建Spark开发环境,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
以下过程本地单机版pyspark练习编程环境的配置方法。注意:仅配置练习环境无需安装hadoop,无需安装scala.1,安装Java8下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注意避免安装其它版本的jdk否则可能会有不兼容spark的情况。注意设置JAVA_HOME,并添加它到默认路径PATH中WINDOWS下安装jdk8详细教程可以参考:https://www.cnblogs.com/heqiyoujing/p/9502726.html安装成功后,在命令行中输入 java -version,可以看到类似如下的结果。2,下载解压sparkspark官网下载: http://spark.apache.org/downloads.html百度云盘链接: https://pan.baidu.com/s/1mUMavclShgvigjaKwoSF_A 密码:fixh下载后解压放入到一个常用软件的安装路径,如:/Users/liangyun/ProgramFiles/spark-3.0.1-bin-hadoop3.2对于Linux用户,和mac用户,建议像如下方式在~/.bashrc中设置环境变量,以便可以启动spark-submit和spark-shell。windows用户可以忽略以下设置。3,安装findspark安装成功后可以在jupyter中运行如下代码4,救命方案
如果以上过程由于java环境配置等因素没能成功安装pyspark。
可以在和鲸社区的云端notebook环境中直接学习pyspark。
和鲸社区的云端notebook环境中已经安装好了pyspark。
https://www.kesci.com/home/column/5fe6aa955e24ed00302304e0
pyspark主要通过以下一些方式运行。1,通过pyspark进入pyspark单机交互式环境。这种方式一般用来测试代码。也可以指定jupyter或者ipython为交互环境。2,通过spark-submit提交Spark任务到集群运行。这种方式可以提交Python脚本或者Jar包到集群上让成百上千个机器运行任务。这也是工业界生产中通常使用spark的方式。3,通过zepplin notebook交互式执行。zepplin是jupyter notebook的apache对应产品。4, Python安装findspark和pyspark库。可以在jupyter和其它Python环境中像调用普通库一样地调用pyspark库。这也是本书配置pyspark练习环境的方式。以下为在集群上运行pyspark时相关的一些问题,1,pyspark是否能够调用Scala或者Java开发的jar包?答:只有Driver中能够调用jar包,通过Py4J进行调用,在excutors中无法调用。2,pyspark如何在excutors 香港云主机中安装诸如pandas,numpy等包?答:可以通过conda建立Python环境,然后将其压缩成zip文件上传到hdfs中,并在提交任务时指定环境。当然,最简单直接的方案是把你想要的anaconda环境打包成zip上传到集群hdfs环境中。注意,你打包的机器应当和集群的机器具有相同的linux操作系统。3,pyspark如何添加自己编写的其它Python脚本到excutors中的PYTHONPATH中?答:可以用py-files参数设置,可以添加.py,.egg 或者压缩成.zip的Python脚本,在excutors中可以import它们。4,pyspark如何添加一些配置文件到各个excutors中的工作路径中?答:可以用files参数设置,不同文件名之间以逗号分隔,在excutors中用SparkFiles.get(fileName)获取。关于怎么快速搭建Spark开发环境问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注开发云行业资讯频道了解更多相关知识。
相关推荐: 如何进行springboot+mybatis-plus+maven多模块注入
如何进行springboot+mybatis-plus+maven多模块注入,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。主要是利用springboot的注解@SpringBoot…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。