怎么使用Python处理文本数据

本篇内容介绍了“怎么使用Python处理文本数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！实验目的熟悉python的基本数据结构，以及文件的输入与输出。实验数据利用xxxx年x免费云主机域名x机器学习会议的评测数据和评测任务，数据包括训练集和测试集，评测任务为通过给定的训练数据，预测测试集中的关系是正例还是负例，在每个样本最后给出1或者0。数据描述如下，第一列为关系类型，第二列和第三列为人名，第四列是标题，第五列是关系为正例还是负例，1为正例，0为负例；第六列表示训练集。测试集描述如下图，格式基本与训练集类似，唯一不同的是第五列没有关系是正例还是负例的标记。实验内容对训练集数据进行处理，只留下前面五列，输出文本命名为exp1_1.txt。在第一步得到的数据的基础上对19类关系进行分类，生成的文本存放在exp1_train文件夹下，按照关系类别出现的顺序，第一个关系类别的数据存放在1.txt中，第二个关系类别存放在2.txt中，直到19.txt。测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类，即相同关系类型的数据放到一个文本文件中，同样生成19个类别的测试文件，格式仍旧和测试文件保持一致。存放在exp1_test文件夹下，每个类别的文件仍旧命名为1_test.txt，2_test.txt…同时对每个样本在原测试集中出现的位置进行记录，和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行，在索引文件中进行记录，保存在文件index1.txt，index2.txt….解题思路1.第一题是考察我们文件操作与列表的知识，主要考察的难点是对new文件的读取，根据要求处理后在生成一个txt文件，让我们看一下具体的代码实现：2.第二题依旧考察了文件操作，在题目一生成的文件基础上，按照同一类型的事件对事件进行分类，是否能高效的分组需要利用循环条件来解决，我们来看看具体的代码实现3.将训练集的19个类别按照人物的关系进行进一步的分类，我们可以通过字典对数据进行遍历，查找关系，把关系相同的内容放到一个文件夹中，不同则新建一个。实验目的熟悉python的基本数据结构，以及文件的输入与输出。实验数据xxxx年xx天池大赛，也是中国高校第x届大数据挑战赛的数据。数据包括两个表，分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据，以及和这些艺人相关的6个月内（20150301-20150831）的用户行为历史记录。选手需要预测艺人随后2个月，即60天（20150901-20151030）的播放数据。实验内容对歌曲艺人数据mars_tianchi_songs进行处理，统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv，第一列为艺人的ID，第二列为该艺人的歌曲数目。最后一行输出艺人的个数。将用户行为表和歌曲艺人表以歌曲song_id作为关联，合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致，第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。按照艺人统计每个艺人每天所有歌曲的播放量，输出文件为exp2_3.csv，各个列名为艺人id,日期Ds,歌曲播放总量。注意：这里只统计歌曲的播放量，不包括下载和收藏的数量。解题思路：（利用pandas库）1.（1）利用.drop_duplicates() 删除重复值（2）利用.loc[:,‘artist_id’].value_counts() 求出歌手重复次数，即每个歌手的歌曲数目（3）利用.loc[:,‘songs_id’].value_counts() 求出歌曲没有重复利用merge()合并两个表利用groupby()[].sum()进行重复性相加“怎么使用Python处理文本数据”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注百云主机网站，小编将为大家输出更多高质量的实用文章！

相关推荐: thinkphp的token验证失败如何解决

本篇内容主要讲解“thinkphp的token验证失败如何解决”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“thinkphp的token验证失败如何解决”吧! thinkphp的token验证失败的解决办法：1、关…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。