Python数据读取的常见错误


这篇文章主要讲解了“Python数据读取的常见错误”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢 香港云主机深入,一起来研究和学习“Python数据读取的常见错误”吧!1、UnicodeDecodeErrorread_csv 默认读入文件的编码格式为:utf-8,如果读入文件无法被utf-8编码,就会报上面的错误。
可是我们怎么知道读入文件的编码格式呢?今天,为大家介绍一个这方面的包:chardet,它能返回文件的编码格式。使用前先用pip install chardet,安装一下。 接下里这样编写返回编码格式,file为读入的文件名称。通过charadet包分析出文件的编码格式后,不管使用 python原生的open, read,还是pandas的read_csv,都可以传入给参数encoding.2、 sep分隔符常见文件的分隔符,比如 , t, csv文件默认为逗号,不过常用的大数据库,比如hive,有时会使用分隔符为t,这时候就需要调整参数sep. 这类错误比较好解决。3、读取文件时遇到和列数不对应的行,此时会报错尤其在读入文件为上亿行的,快读完时,突然报出这个错,此行解析出的字段个数与之前行列数不匹配。此时,需要调整一个参数:error_bad_lines为false,意思是忽略此行。实际项目,读入的文件数据环境比我们预想的复杂。假设我们的数据文件默认分隔符为逗号,然后如果某行的某个单元格取值为:就光这一个单元格,就会解析出多列,报错那也是自然的,这就要求我们在读入之前对数据做好充分的清洗。
4、EOF inside string starting at line 错误这个错误在读入文件时,经常也会出现。这类错误需要修改 quoting参数。默认取值为0,遇到错误时,可以根据文档调整。感谢各位的阅读,以上就是“Python数据读取的常见错误”的内容了,经过本文的学习后,相信大家对Python数据读取的常见错误这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是开发云,小编将为大家推送更多相关知识点的文章,欢迎关注!

相关推荐: hadoop + spark+ hive 集群搭建(apache版本)

hadoop 集群,初学者顺利将它搭起来,肯定要经过很多的坑。经过一个星期的折腾,我总算将集群正常跑起来了,所以,想将集群搭建的过程整理记录,分享出来,让大家作一个参考。由于搭建过程比较漫长,所以,这篇文章应该也会很长,希望大家能耐心看完。节点和主机hostn…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 08/06 19:02
Next 08/06 19:03

相关推荐