an error occurred
在用pyspark做数据处理时,经常遇到这样的坑在此作个记录:
(1)配置文件:当字段数太多时,需要配置字段数长度,注意其中的数字是字符串,不然会报错。
ERROR:py4j.java_gateway:an error occurred while trying to connect to the Java server (127.0.0.1:5825
错误代码如下:
spark = Sparksession \
.builder \
.APPName("Python Spark sql basic example") \
.master('local[*]') \
.config("spark.some.config.option", "some-value") \
.config('spark.debug.maxToStringfields', 50) \
.getOrCreate()
正确代码
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.master('local[*]') \
.config("spark.some.config.option", "some-value") \
.config('spark.debug.maxToStringFields', '50') \
.getOrCreate()
(2)在做数据处理时,脏数据太多,不符合每行的处理规范,也会报这样的错误。一定要用filter严格过滤数据
dataUrlDecode = datainit.filter(
lambda x: ('json_data=' in x) and ('client_id' in x) and ('url' in x) and ('id' in x)).map(
lambda x: data_urldecode(x))
相关阅读
用xshell5连接vmware10+centos6.7时报Could not conne
我在用xshell5连接vmware10上的centos6.7时报了上面的错。报这个错让我感觉很莫名其妙,因为虚拟机能ping通 宿主机,宿主机也能ping
1130 - Host XXX is not allowed to connect to this
1.在用Navicat配置远程连接Mysql数据库时遇到如下报错信息,这是由于Mysql配置了不支持远程连接引起的。 2.在安装Mysql数据库的主
0.0.0.0 与 127.0.0.1的区别 一、总结 一句话总结: 0.0.0.0 集合 不清楚 主机 目的 网络 收容所 127.0.0.1 本机地址 Localhost a
Navicat 链接虚拟机Mysql 报错:2003-Can't connect to
前言 在首次在本机用Navicat链接VMware win10虚拟机中的Mysql数据库报错,如下: 解决方法 一、尝试ping虚拟机ip地址 如果出现
HttpURLConnection方法之setRequestProperty()浅谈
前言:申请CSDN账号大概是四年前的事情了,想想的确的有点历史久远的感觉,只不过这段历史中,我的博客却是历史空白的,主要原因是,当时只是