怎么用Python爬取淘宝上的粽子数据并进行分析


这篇文章将为大家详细讲解有关怎么用Python爬取淘宝上的粽子数据并进行分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览器自动化操作。其实我们还可以利用Ajax接口来构造链接,但是非常繁琐(包含加密密钥等),直接使用Selenium来模拟浏览器会省去很多事情;最常见的问题是chromedriver驱动与谷歌浏览器的版本不匹配,很容易就可以解决。接下来,我们就开始利用selenium抓取淘宝商品,并使用Xpath解析得到商品名、价格、付款人数、店铺名、发货地址信息,最后将数据保存在本地。爬虫过程如下图:selenium自动化爬取(需要淘宝扫描登录一次)详细爬虫代码下载见文末。此时我们爬取得到的数据:整理前的数据数据还是比较粗糙的,有几个问题需要我们去处理:添加列名去除重复数据(翻页爬取过程中会有重复)购买人数为空的记录,替换成0人付款将购买人数转换为销量(注意部分单位为万)删除无发货地址的商品,并提取其中的省份部分代码:整理后的数据这样我们就对数据完成了清洗与整理,方便下一步进行可视化。顺便做个排序,看看什么粽子最贵!想尝尝本文我们打算用pyecharts进行可视化展示。有同学可能使用的是老版 香港云主机本(0.5X),Pyecharts的1.x版本与老版本(0.5X)不兼容,如果无法导入可能是这个问题哈。可视化所有语句均基于v1.7.1,通过以下语句可查询你的pyecharts版本:扇形图最贵的粽子1780元看来是吃不起了,那大家都买什么价位的呢?先按照淘宝推荐的区间划分一下:再使用pyecharts来生成不同价格区间的粽子销量占比图。不同价格区间的粽子销量占比看来百元以内的粽子(礼盒装)才是大家的正常承受范围,不过我还是选择小区门口的5块钱3个。词云图我们用jieba对爬取得到的商品名称分词,生成词云。粽子商品名称词云图硕大的粽子周围环绕着几个突出的关键词:礼盒装、鲜肉、蛋黄、嘉兴、豆沙、端午节。除去端午节相关的词汇,我们通过关键词大小似乎就知道几种口味的受欢迎情况。查阅资料对比一下,还真是大体一致。心疼我枣粽。至于嘉兴这个地名,我们后文会继续提到。粽子商品销量Top10五芳斋共4款入围,其中一款礼盒装达到了100万+的销量,应该比这个还多(参见微信的10w+)。真真老老紧随其后,3款粽子进入TOP10。其余的品牌还有稻香村和知味观,额,第九名是卖粽叶的,看来自己包粽子的需求也是蛮大的嘛。粽子店铺销量Top10粽子店铺销量Top10其实与商品相似,五芳斋官方旗舰店和真真老老旗舰店占据首位,遥遥领先。经过查阅,五芳斋,真真老老,都为嘉兴的粽子两大品牌,那难怪嘉兴在词云图里那么突出。嘉兴属于浙江省,销量冠亚军都在这里,那浙江岂不是占比很大。继续使用pyecharts来生成各省份粽子销量分布图各省份粽子销量分布这个销量占比差异真的是太大了。可以说中国粽子看浙江,浙江粽子看嘉兴[3](通过计算发货地址为浙江的粽子销量占比70.6%,而嘉兴占浙江的87.4%)关于怎么用Python爬取淘宝上的粽子数据并进行分析就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

相关推荐: VS2005编译完成缓慢的解决方法

这篇文章主要讲解了“VS2005编译完成缓慢的解决方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“VS2005编译完成缓慢的解决方法”吧!今天把虚拟机的系统换成了WinXP,Win2000系统确实有些问题,不…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 08/14 10:23
下一篇 08/14 10:23

相关推荐