本篇内容介绍了“怎么用Python获取大众点评上长沙口味虾店铺信息”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!数据读入首先导入所需包,并读入获取的数据集。此数据集包含50个搜索页面共745条数据,字段包含:餐厅名、星级、星级评分、评论数、人均消费、推荐菜、口味、环境和服务得分。数据预览如下:数据预处理此处我们对数据进行如下处理以便后的分析工作。title: 去除前后符号star:提取星级score: 提取数值,转换为类别型comment_list:提取口味、环境、服务得分删除多余的行和列处理之后的数据如下,分析样本为560条。数据可视化以下展示部分可视化代码:1、不同星级店铺数量分布准四星商户最多,占比高达65%,超过四星以上的商户占比18%,其中五星商户数量最少,仅有10家。2、店铺评论数分布我们假设评论数目为店铺的热度,也就是它越火,消费人数越多,评论数目越多。从直方图中可以看出,数据呈现比较严重的右偏分布,其中超过1万评论的仅有两家,我们挑选出来看一下,发现这两家都是超级文和友,超级文和友是长沙网红打卡地,国庆期间一天排16000+个号的超级网红龙虾馆,难怪热度会这么高。3、人均价格区间分布我们绘制了所有店铺口味虾人均消费价格分布的直方图,发现价格分布在20~180元之间,其中人均消费大部分都在67-111元的区间内。扩展看,人均消费和商户的星级有关系吗?4、不同星级店铺与价格等因素的关系不同星级与价格的关系:这里绘制了星级和价格分布的小提琴图,用来展示多组数据的分布状态以及概率密度。从图形可以看出,不同星级和价格之间的分布有显著差异,表现为星级越高,平均消费价格越高。不同星级和其他得分项的关系:我们 香港云主机预想,星级评价越好,它在口味、环境和服务的得分越高,热度也就越高,从绘制出来的箱线图也可以验证我们的这一假设。那么店铺得分与口味、环境、服务、评论数量、平均价格有关系吗?接下来我们绘制一张多变量图看一下。5、数值型变量关系数值型变量关系店铺得分与口味、环境、服务得分呈现较为显著的线性相关,这也和之前的验证一致;店铺得分和人均消费价格、评论数量关系不显著;口味、环境、服务得分之间有显著的正相关,三者存在高则同高的情况。数值型变量之间的相关系数为了验证上述可视化的结果,我们通过Python计算数值型变量之间的pearson相关系数,根据经验,|r|>=0.8时,可视为高相关。从热力图中也可以得到上述结论。6、 推荐菜词云图假设店铺的推荐菜就是不同店铺的热门菜,我们使用jieba对推荐菜进行分词并绘制词云图:发现”卤虾”、”口味虾”、”油爆虾”是大家爱点的热门菜。另外大家点口味虾的同时也爱点”口味花甲”、”凤爪”、”牛油”之类的串儿等菜。7、K-means聚类分析群集占比聚类分析用于将样本做群集划分,同一集群内成员的相似性要愈高愈好, 而不同集群间成员的相异性则要愈高愈好。我们使用Python进行了K-means聚类,对数值型变量:得分、评论数、平均价格、口味、环境、服务评论做群集划分,这里取K为3。得到以上三群,其中非常推荐的数量有3家,一般推荐的459家,非常不推荐的有97家。我们看一下这三群的描述性统计:以上是不同群集的直方图分布,通过群集分布图,可以总结如下:非常推荐:各项得分最高、评论数最多、价格最高一般推荐:各项得分居中、评论数居中、价格居中非常不推荐:各项得分最低、评论数最低、价格最低由于在做聚类分析时候去除了一个评论数为30509.0的异常样本。加上这条样本,得到最终推荐的四家店铺:“怎么用Python获取大众点评上长沙口味虾店铺信息”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注开发云网站,小编将为大家输出更多高质量的实用文章!
相关推荐: Mybatis中resultType与resultMap之间的关系和使用场景
本篇内容介绍了“Mybatis中resultType与resultMap之间的关系和使用场景”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Mybatis ORM…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。