如何使用torchtext导入NLP数据集


本篇内容主要讲解“如何使用torchtext导入NLP数据集”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用torchtext导入NLP数据集”吧!简介torchtext在文本数据预处理方面特别强大,但我们要知道ta能做什么、不能做什么,并如何将我们的需求用torchtext实现。虽然torchtext是为pytorch而设计的,但是也可以与keras、tensorflow等结合使用。1、Train/Validation/Test数据集分割2、文件数据导入(File Loading)3、分词(Tokenization) 文本字符串切分为词语列表4、构建词典(Vocab) 根据训练的预料数据集构建词典5、数字映射(Numericalize/Indexify) 根据词典,将数据从词语映射成数字,方便机器学习6、导入预训练好的词向量(word vector)7、分批(Batch) 数据集太大的话,不能一次性让机器读取,否则机器会内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理8、向量映射(Embedding Lookup) 根据预处理好的词向量数据集,将5的结果中每个词语对应的索引值变成 词语向量上面8个步骤,torchtext实现了2-7。第一步需要我们自己diy,好在这一步没什么难度一般我们做机器学习会将数据分为训练集和测试集,而在深度学习中,需要多轮训练学习,每次的学习过程都包括训练和验证,最后再进行测试。所以需要将数据分成训练、验证和测试数据。infile:待分割的csv文件trainfile:分割出的训练cs文件valtestfile:分割出的测试或验证csv文件seed:随机种子,保证每次的随机分割随机性一致ratio:测试(验证)集占数据的比例经过上面的操作,我们已经构建出实验所需的数据:训练数据(这里说的是dataset_train.csv而不是train.csv)验证数据(dataset_train.csv)测试数据(test.csv)。导入的数据是字符串形式的文本,我们需要将其分词成词语列表。英文最精准的分词器如下:Runtorchtext中使用torchtext.data.TabularDataset来导入自己的数据集,并且我们需要先定义字段的数据类型才能导入。要按照csv中的字段顺序来定义字段的数据类型,我们的csv文件中有两个字段(label、text)Run根据训练(上面得到的train)的预料数据集构建词典。这两有两种构建方式,一种是常规的不使用词向量,而另一种是使用向量的。区别仅仅在于vectors是否传入参数Run词典-词语列表形式,这里只显示前20个词典-字典形式train数据中生成的词典,里面有,这里有两个要注意:是指不认识的词语都编码为german、father等都编码为0,这是因为我们要求词典中出现的词语词频必须大于50,小于50的都统一分配一个索引值。词语you对应的词向量得用词向量构建特征工程时能保留更多的信息量(词语之间的关系)这样可以看出词语的向量方向是同义还是反义距离远近。而这里我们粗糙的用余弦定理计算词语之间的关系,没有近义反义关系,只能体现出距离远近(相似性)。Run相似的功能合并成模块,可以增加代码的可读性。这里我免费云主机域名们把阶段性合并三四的成果get_dataset函数get_dataset函数内部参数解读data.Field(tokenize,fix_length)定义字段tokenize=tokenize1 使用英文的分词器tokenize1函数。fix_length=100 让每个文本分词后的长度均为100个词;不足100的,可以填充为100。超过100的,只保留100data.TabularDataset.splits(train, validation,test, format,skip_header,fields)读取训练验证数据,可以一次性读取多个文件train/validation/test 训练验证测试对应的csv文件名skip_header=True 如果csv有抬头,设置为True可以避免pytorch将抬头当成一条记录fields = [(‘label’, LABEL), (‘text’, TEXT)] 定义字段的类型,注意fields要按照csv抬头中字段的顺序设置torchtext.vocab.Vectors(name, cache)导入词向量数据文件name= ‘glove.6B.100d.txt’ 从网上下载预训练好的词向量glove.6B.100d.txt文件(该文件有6B个词,每个词向量长度为100)cache = ‘data/’ 文件夹位置。glove文件存放在data文件夹内TEXT.buildvocab(maxsize,minfreq,unkinit) 构建词典,其中max_size=2000 设定了词典最大词语数min_freq=50设定了词典中的词语保证最少出现50次unkinit=torch.Tensor.normal 词典中没有的词语对应的向量统一用torch.Tensor.normal_填充数据集太大的话,一次性让机器读取容易导致内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理batch_size 每批次最多加入多少条评论device device=’cpu’在CPU中运行,device=’gpu’ 在GPU中运行。普通电脑都只有CPU的 该函数返回的是BucketIterator对象Run查看train_iterator数据类型这里以trainiterator为例(validiterator, test_iterator都是相同的对象)。因为本例中数据有两个字段label和text,所以获取train_iterator的dataset获取train_iterator中的第8个对象获取train_iterator中的第8个对象的lebel字段的内容获取train_iterator中的第8个对象的text字段的内容到此,相信大家对“如何使用torchtext导入NLP数据集”有了更深的了解,不妨来实际操作一番吧!这里是百云主机网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

相关推荐: JavaScript原型链指的是什么

这篇文章主要为大家展免费云主机域名示了“JavaScript原型链指的是什么”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“JavaScript原型链指的是什么”这篇文章吧。(概念) 原型链指一些原型通过__prot…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 09/01 07:37
Next 09/01 07:38

相关推荐