这篇文章主要讲解了“Python中的数据清洗方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python免费云主机域名中的数据清洗方法是什么”吧!这里数据清洗需要用到的库是pandas库,下载方式还是在终端运行 : pip install pandas.首先我们需要对数据进行读取第3行是对数据进行读取,pandas库里面有读取函数调用即可,csv格式是读取写入速度最快的。第4,5行是为了读取的实话显示全部的列,是因为很多列的话pycharm会把中间一些列隐藏掉,所以我们这为了他不隐藏就加这两行代码。第6行是显示表头,我们可以看到有什么字段,列名第7行是显示表的基本信息,每一列有多少数据,字段是什么类型的数据。非空的数据有多少,所以我们第一步就可以看得到基本那一列有空值了。data.info()后我们可以看到大部分数据都有541909行,所以我们大致猜到是Description ,CustomerID 列漏结果了第5行进行空值删除,这里先删除Description列的空值,inplace=True意思是对数据进行修改,如果没有inplace=True,则不对data进行修改,打印数据还是和之前一样,或者重新定义一个变量进行赋值。由于这一列空值数据比较少,这一列数据对我们数据分析没有那么重要,所以我们选择删除这一整列。我们这个表是对客户进行筛选的,所以以CustomerID为准,强制删除其他列这里我们先对其他字段进行类型转换类型转换以上我们处理了空值,接下来我们处理异常值。查看表的基本数据分布可以使用describe可以看到数据Quantity 列中最小值为-80995.这列明显有异常值,所以需要对这一列进行异常值筛选。只需要大于0的值。打印一下就只有397924行了。有5194行重复值,这里的重复值是完全重复的,所以是没用的数据我们可以进行删除。删除后对原来的表进行保存,再去查看一下表的基本信息现在还剩下392730条数据。数据到这一步就完成了数据清洗。感谢各位的阅读,以上就是“Python中的数据清洗方法是什么”的内容了,经过本文的学习后,相信大家对Python中的数据清洗方法是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是百云主机,小编将为大家推送更多相关知识点的文章,欢迎关注!
相关推荐: 怎么将nginx日志导入elasticsearch
本篇内容主要讲解“怎么将nginx日志导入elasticsearch”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么将nginx日志导入elasticsearch”吧!将nginx日志通过filebeat收集后传…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。