这篇“NLTK怎么安装使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“NLTK怎么安装使用”文章吧。第一种方法,可以用Anaconda来安装NLTK:第二种方法,可以用pip,在Jupyter Notebook的单元中运行安装NLTK:如果以下 Python 代码运行没有错误,则说明安装是成功的:NLTK 附带了大量可以下载的数据(语料库、语法、模型等),所以只需运行以下的 Python 命令就会出现一个显示交互式下载窗口:对于此模块,你还需要安装“停用词”的语料库。下载后,还要再创建一个名为NLTK_DATA包含下载目录路径的环境变量(如果你进行集中安装,则不需要;有关安装数据的完整指南,请参阅文档)。对文本进行分类意味着要为其分配标签。我们可以采用多种方式对文本进行分类,例如情感分析(正面/负面/中性)、垃圾邮件分类(垃圾邮件/非垃圾邮件)、按文档主题等。在本模块中,我们将使用大型电影评论数据集演练文本分类示例,该数据集提供 25,000 条电影评论(正面和负面)用于训练和相同数量的测试。NLTK 提供了一个朴素贝叶斯分类器来处理机器学习工作。我们的工作主要是编写一个从文本中提取“特征”的函数。分类器使用这些特征来执行其分类。我们的函数称为feature extractor,它接受一个字符串(文本)作为参数,并返回一个将特征名称映射到它们的值的字典,称为feature set。对于电影评论,我们的特征将是前N 个词(不包括停用词)。因此,特征提取器将返回一个特征集,其中包含这N 个单词作为键,并返回一个布尔值,表示它们的存在或不存在作为值。第一步是浏览评论,存储所有单词(停用词除外),并找到最常用的单词。首先,这个辅助函数接受一个文本并输出它的非停用词:word_tokenize
将文本拆分为一个标记列表(仍然保留标点符号)。mark_negation
用 _NEG 标记否定后的标记。所以,例如,“我不喜欢这个。”在标记化和标记否定之后变成这个:["I", "did", "not", "enjoy_NEG", "this_NEG", "."]
.
最后一行删除所有停用词(包括否定词)和标点符号。文中还有很多没用的词,比如“我”或者“这个”,但是这个过滤就足够我们演示了。接下来,我们构建从评论文件中读取的所有单词的列表。我们保留一个单独的正面和负面词列表,以确保在我们选取最重要的词时保持平衡。(我还在没有将单词列表分开的情况下对其进行了测试,结果发现大多数正面评论都被归类为负面评论。)同时,我们还可以创建所有正面评论和所有负面评论的列表。运行此代码可能需要一段时间,因为有很多文件。然后,我们只保留正面和负面词列表中的前N 个词(在本例中为 2000 免费云主机域名个词)并将它们组合起来。现在我们可以编写一个特征提取器。如前所述,它应该返回一个字典,其中每个最上面的单词作为键,True
或者False
作为值,这取决于该单词是否存在于文本中。
然后我们创建一个训练集,我们将其提供给朴素贝叶斯分类器。训练集应该是一个元组列表,其中每个元组的第一个元素是特征集,第二个元素是标签。上面的行占用大量 RAM 并且速度很慢,因此您可能希望通过获取评论列表的一部分来使用评论的子集。训练分类器很简单:要立即对评论进行分类,请classify
在新功能集上使用该方法:
如果你想要查看每个标签的概率,可以用prob_classify
替代:
分类器具有基于测试集确定模型准确性的内置方法。该测试集的形状与训练集相同。电影评论数据集有一个单独的目录,其中包含可用于此目的的评论。使用 N = 2000,在训练集中有 5000 条正面评论和 5000 条负面评论,我用这段代码获得了大约 85% 的准确率。以上就是关于“NLTK怎么安装使用”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注百云主机行业资讯频道。
这篇文章主要介绍“前端开发AmazeUI平滑滚动如何免费云主机域名实现”,在日常操作中,相信很多人在前端开发AmazeUI平滑滚动如何实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”前端开发AmazeUI平滑滚动如何实现”的疑…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。