Python怎么利用Pandas与NumPy进行数据清洗


本文小编为大家详细介绍“Python怎么利用Pandas与NumPy进行数据清洗”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。许多数据科学家认为获取和清理数据的初始步骤占工作的 80%,花费大量时间来清理数据集并将它们归结为可以使用的形式。因此如果你是刚刚踏入这个领域或计划踏入这个领域,重要的是能够处理杂乱的数据,无论数据是否包含缺失值、不一致的格式、格式错误的记录还是无意义的异常值。将利用 Python 的 Pandas和 NumPy 库来清理数据。导入模块后就开始正式的数据预处理吧。通常会发现并非数据集中的所有数据类别都有用。例如可能有一个包含学生信息(姓名、年级、标准、父母姓名和地址)的数据集,但希望专注于分析学生成绩。在这种情况下地址或父母的姓名并不重要。保留这些不需要的数据将占用不必要的空间。BL-Flickr-Images-Book.csv 数据操作。可以看到这些列是对 Edition Statement, Corporate Author, 免费云主机域名Corporate Contributors, Former owner, Engraver, Issuance type and Shelfmarks 没有任何信息帮助的,因此可以进行批量删除处理。Pandas 索引扩展了 NumPy 数组的功能,以允许更通用的切片和标记。 在许多情况下,使用数据的唯一值标识字段作为其索引是有帮助的。获取唯一标识符。Identifier列替换索引列。206 是索引的第一个标签,可以使用 df.iloc[0] 基于位置的索引访问。清理特定列并将它们转换为统一格式,以更好地理解数据集并强制保持一致性。处理 Date of Publication 出版日期 列,发现该数据列格式并不统一。df.loc[1905:, ‘Date of Publication’].head(10)我们可以使用正则表达式的方式直接提取连续的4个数字即可。最后获取数字字段列。df[‘Date of Publication’].str 。 此属性是一种在 Pandas 中访问快速字符串操作的方法,这些操作在很大程度上模仿了对原生 Python 字符串或编译的正则表达式的操作,例如 .split()、.replace() 和 .capitalize()。要清理 Place of Publication 字段,我们可以将 Pandas 的 str 方法与 NumPy 的 np.where 函数结合起来,该函数基本上是 Excel 的 IF() 宏的矢量化形式。在这里 condition 要么是一个类似数组的对象,要么是一个布尔掩码。 then 是如果条件评估为 True 时使用的值,否则是要使用的值。本质上 .where() 获取用于条件的对象中的每个元素,检查该特定元素在条件上下文中的计算结果是否为 True,并返回一个包含 then 或 else 的 ndarray,具体取决于哪个适用。可以嵌套在复合 if-then 语句中,允许根据多个条件计算值.处理 Place of Publication 出版地 数据。使用包含的方式提取需要的数据信息。也可以使用 np.where 处理。在某些情况下,将自定义函数应用于 DataFrame 的每个单元格或元素。 Pandas.apply() 方法类似于内置的 map() 函数,只是将函数应用于 DataFrame 中的所有元素。例如将数据的发布日期进行处理成 xxxx 年的格式,就可以使用apply。可以在读取数据时候添加参数跳过某些不要的行,比如索引 0 行。读到这里,这篇“Python怎么利用Pandas与NumPy进行数据清洗”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注百云主机行业资讯频道。

相关推荐: php如何实现抽奖

这篇文章主要介绍“php如何实现抽奖”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“php如何实现抽奖”文章能帮助大家解决问题。 php实现抽奖的方法:1、创建一个php示例文件;2、定义奖池拥有的奖品;3、通过“shu…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 04/16 21:33
Next 04/16 21:33

相关推荐