怎么用Python分析红楼梦关键词


这篇文章主要介绍“怎么用Python分析红楼梦关键词”,在日常操作中,相信很多人在怎么用Python分析红楼梦关键词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python分析红楼梦关键词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!Python工具包准备想要 香港云主机完成一个文本的分词,我们需要分词工具;而要将分词统计结果用词云图画出来,我们需要一个词云工具:

jieba 是基于Python的中文分词工具,安装使用非常方便。
我们使用pip安装:

wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
效果举例:

我们使用pip安装:

文本和图片准备

为了让分词工具进行分析,我们下载红楼梦小说txt格式。为了方便,我们将红楼梦文档放在程序“fenci.py”所在目录“分词”下的txt文件夹里面:

像上面的词云图的形状是一个鲸鱼,我们需要准备一个有图案的背景图,让最后的词云图贴合背景图案。
我们选用这张宝玉的美男子画像图作为背景图:
文件保存在程序当前文件夹的img目录下:

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。
但是,由于红楼梦有很多特殊的用词,比如“这会子”,”明儿”等等,大家可以选择自行添加一些停用词。比如我加了一些词:

我们把停用词放在words文件夹下面:

程序运行我们将最大次数设置成500个,为了能让背景图案比较明显:
从结果看来,宝玉是当之无愧的主角。凤姐,贾母,王夫人等人戏份也不少。由于黛玉和林黛玉被分成了两个词,因此显得戏份很少,大家想想有没有办法解决这个问题?另外,我们可以看到“这会子”这个词出现频率也不低,从中可以一窥当时的方言的感觉。到此,关于“怎么用Python分析红楼梦关键词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注开发云网站,小编会继续努力为大家带来更多实用的文章!

相关推荐: python如何安装pip

小编给大家分享一下python如何安装pip,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!安装pip前需要安装setuptools,安装setuptools前需要zlib等包,zli…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 10/10 12:25
Next 10/10 12:26

相关推荐