NLTK怎么安装使用

这篇“NLTK怎么安装使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“NLTK怎么安装使用”文章吧。第一种方法，可以用Anaconda来安装NLTK：第二种方法，可以用pip，在Jupyter Notebook的单元中运行安装NLTK：如果以下 Python 代码运行没有错误，则说明安装是成功的：NLTK 附带了大量可以下载的数据（语料库、语法、模型等），所以只需运行以下的 Python 命令就会出现一个显示交互式下载窗口：对于此模块，你还需要安装“停用词”的语料库。下载后，还要再创建一个名为NLTK_DATA包含下载目录路径的环境变量（如果你进行集中安装，则不需要；有关安装数据的完整指南，请参阅文档）。对文本进行分类意味着要为其分配标签。我们可以采用多种方式对文本进行分类，例如情感分析（正面/负面/中性）、垃圾邮件分类（垃圾邮件/非垃圾邮件）、按文档主题等。在本模块中，我们将使用大型电影评论数据集演练文本分类示例，该数据集提供 25,000 条电影评论（正面和负面）用于训练和相同数量的测试。NLTK 提供了一个朴素贝叶斯分类器来处理机器学习工作。我们的工作主要是编写一个从文本中提取“特征”的函数。分类器使用这些特征来执行其分类。我们的函数称为feature extractor，它接受一个字符串（文本）作为参数，并返回一个将特征名称映射到它们的值的字典，称为feature set。对于电影评论，我们的特征将是前N 个词（不包括停用词）。因此，特征提取器将返回一个特征集，其中包含这N 个单词作为键，并返回一个布尔值，表示它们的存在或不存在作为值。第一步是浏览评论，存储所有单词（停用词除外），并找到最常用的单词。首先，这个辅助函数接受一个文本并输出它的非停用词：word_tokenize将文本拆分为一个标记列表（仍然保留标点符号）。
mark_negation用 _NEG 标记否定后的标记。所以，例如，“我不喜欢这个。”在标记化和标记否定之后变成这个：
["I", "did", "not", "enjoy_NEG", "this_NEG", "."].
最后一行删除所有停用词（包括否定词）和标点符号。文中还有很多没用的词，比如“我”或者“这个”，但是这个过滤就足够我们演示了。接下来，我们构建从评论文件中读取的所有单词的列表。我们保留一个单独的正面和负面词列表，以确保在我们选取最重要的词时保持平衡。（我还在没有将单词列表分开的情况下对其进行了测试，结果发现大多数正面评论都被归类为负面评论。）同时，我们还可以创建所有正面评论和所有负面评论的列表。运行此代码可能需要一段时间，因为有很多文件。然后，我们只保留正面和负面词列表中的前N 个词（在本例中为 2000 免费云主机域名个词）并将它们组合起来。现在我们可以编写一个特征提取器。如前所述，它应该返回一个字典，其中每个最上面的单词作为键，True或者False作为值，这取决于该单词是否存在于文本中。
然后我们创建一个训练集，我们将其提供给朴素贝叶斯分类器。训练集应该是一个元组列表，其中每个元组的第一个元素是特征集，第二个元素是标签。上面的行占用大量 RAM 并且速度很慢，因此您可能希望通过获取评论列表的一部分来使用评论的子集。训练分类器很简单：要立即对评论进行分类，请classify在新功能集上使用该方法：
如果你想要查看每个标签的概率，可以用prob_classify替代：
分类器具有基于测试集确定模型准确性的内置方法。该测试集的形状与训练集相同。电影评论数据集有一个单独的目录，其中包含可用于此目的的评论。使用 N = 2000，在训练集中有 5000 条正面评论和 5000 条负面评论，我用这段代码获得了大约 85% 的准确率。以上就是关于“NLTK怎么安装使用”这篇文章的内容，相信大家都有了一定的了解，希望小编分享的内容对大家有帮助，若想了解更多相关的知识内容，请关注百云主机行业资讯频道。

相关推荐: 前端开发AmazeUI平滑滚动如何实现

这篇文章主要介绍“前端开发AmazeUI平滑滚动如何免费云主机域名实现”，在日常操作中，相信很多人在前端开发AmazeUI平滑滚动如何实现问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”前端开发AmazeUI平滑滚动如何实现”的疑…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。