torchtext的用法介绍


这篇文章主要讲解了“torchtext的用法介绍”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“torchtext的用法介绍”吧!Field :主要包含以下数据预处理的配置信息,比如指定分词方法,是否转成小写,起始字符,结束字符,补全字符以及词典等等Dataset :继承自pytorch的Dataset,用于加载数据,提供了TabularDataset可以指点路径,格式,Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象,可以直接加载使用,splits方法可以同时加载训练集,验证集和测试集。Iterator : 主要是数据输出的模型的迭代器,可以支持batch定制。Field 包含一写文本处理的通用参 香港云主机数的设置,同时还包含一个词典对象,可以把文本数据表示成数字类型,进而可以把文本表示成需要的tensor类型以下是Field对象包含的参数:sequential: 是否把数据表示成序列,如果是False, 不能使用分词 默认值: True.use_vocab: 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True.init_token: 每一条数据的起始字符 默认值: None.eos_token: 每条数据的结尾字符 默认值: None.fix_length: 修改每条数据的长度为该值,不够的用pad_token补全. 默认值: None.tensor_type: 把数据转换成的tensor类型 默认值: torch.LongTensor.preprocessing:在分词之后和数值化之前使用的管道 默认值: None.postprocessing: 数值化之后和转化成tensor之前使用的管道默认值: None.lower: 是否把数据转化为小写 默认值: False.tokenize: 分词函数. 默认值: str.split.include_lengths: 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False.batch_first: Whether to produce tensors with the batch dimension first. 默认值: False.pad_token: 用于补全的字符. 默认值: ““.unk_token: 不存在词典里的字符. 默认值: ““.pad_first: 是否补全第一个字符. 默认值: False.重要的几个方法:pad(minibatch): 在一个batch对齐每条数据build_vocab(): 建立词典numericalize(): 把文本数据数值化,返回tensor简单的栗子如下,建一个Field对象torchtext的Dataset是继承自pytorch的Dataset,提供了一个可以下载压缩数据并解压的方法(支持.zip, .gz, .tgz)splits方法可以同时读取训练集,验证集,测试集TabularDataset可以很方便的读取CSV, TSV, or JSON格式的文件,例子如下:加载数据后可以建立词典,建立词典的时候可以使用预训练的word vectorIterator是torchtext到模型的输出,它提供了我们对数据的一般处理方式,比如打乱,排序,等等,可以动态修改batch大小,这里也有splits方法 可以同时输出训练集,验证集,测试集参数如下:dataset: 加载的数据集batch_size: Batch 大小.batch_size_fn: 产生动态的batch大小 的函数sort_key: 排序的keytrain: 是否是一个训练集repeat: 是否在不同epoch中重复迭代shuffle: 是否打乱数据sort: 是否对数据进行排序sort_within_batch: batch内部是否排序device: 建立batch的设备 -1:CPU ;0,1 …:对应的GPU使用方式如下:torchtext提供常用文本数据集,并可以直接加载使用:现在包含的数据集包括:Sentiment analysis: SST and IMDbQuestion classification: TRECEntailment: SNLILanguage modeling: WikiText-2Machine translation: Multi30k, IWSLT, WMT14完整例子如下,短短几行就把词典和数据batch做好了。感谢各位的阅读,以上就是“torchtext的用法介绍”的内容了,经过本文的学习后,相信大家对torchtext的用法介绍这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是开发云,小编将为大家推送更多相关知识点的文章,欢迎关注!

相关推荐: 观察 | 从0到700万,钉钉只用3年,原因就是快准狠!

  深圳,是一个特别容易让媒体产生联想的城市,因为,这里是腾讯的大本营,而钉钉又特别喜欢在这里开发布会,这已经是第三次了,如果说是巧合,估计没人会信。   发布会上,无招宣布,钉钉最新注册企业组织数突破700万,开放平台入驻开发组织数:10万,企业应用数:14…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 08/06 08:47
Next 08/06 08:47

相关推荐