本篇内容主要讲解“Python怎么爬取娱乐圈的排行榜数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么爬取娱乐圈的排行榜 香港云主机数据”吧!我们先来看下原始的网站页面如果我们想一个一个复制这些数据,再进行分析,估计要花一天的时间,才可以把明星的各期排行数据处理好。估计会处理到崩溃,还有可能会因为人为原因出错。而用爬虫,半个小时不到就可以处理好这些数据。接下来看看怎么把这些数据用Python爬下来吧。1 男明星人气榜数据2 女明星人气榜数据以下是获取代码用到信息的具体步骤:step1:浏览器(一般用火狐和Google我用的360)中打开123粉丝网step2:按键盘F12 -> ctrl+rstep3: 点击results.php -> 到Headers中找到代码所需的参数1 用Python中的Requests库获取网页信息代码解析:url = :待爬取网页的url链接,相当于指定爬取评论的路径,本文对应填入上文step3中标注的Requests URL值。headers = :待爬取网页的首部信息,把上文step3中标注的Headers中关键词后面的内容对应填入即可。req =:用get方法获取待爬网页的所有信息。soup:用BeautifulSoup把爬取内容解析成标准格式,方便数据处理。注1:有些网站访问时必须带有浏览器等信息,如果不传入headers就会报错,所以本例中加入了头部的一些信息。我试了一下该链接不加首部信息也可以正常运行,和加了首部信息得到的结果完全一致。2 把爬取到的数据整合到一个数据框中代码解析:period_data:构造400行5列的矩阵用来存放每一期排行数据(前几期排行榜存放了前341位明星的人气值,我怕往期的会多一点数据,所以取了400行)。period_data.columns:给数据加一个列名。name:用findAll函数取出所有的名字信息。for each in name:用循环把名字信息存放到period_data中。popularity:用findAll函数取出所有的人气值信息。for each in popularity:用循环把人气信息存放到period_data中。period_num:获取期数信息。end_time:获取截止日期。period_data_1[‘rank’]:在最后一列加入有序数,方便数据截取使用。接下来展示批量爬虫代码1 定义爬虫函数本段代码是把分段爬虫代码整合到一个函数中,方便反复调用。2 反复调用函数实现批量爬虫本段代码是反复调用爬虫函数获取页面数据,并用append整合到一个数据框中。到此,相信大家对“Python怎么爬取娱乐圈的排行榜数据”有了更深的了解,不妨来实际操作一番吧!这里是开发云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
相关推荐: Nginx如何配置实现SSL证书支持HTTPS访问协议
这篇文章将为大家详细讲解有关Nginx如何配置实现SSL证书支持HTTPS访问协议,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。通过修改简单的Nginx配置文件来实现SSL证书的加持,使得我们的应用程序支持HT…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。