怎么用BeautifulSoup爬取网页内容


这篇文章主要讲解了“怎么用BeautifulSoup爬取网页内容”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用BeautifulSoup爬取网页内容”吧!最近要做一个食品安全方面的项目,需要爬取新闻。于是想到之前用BeautifulSoup爬虫还是非常方便的,今天正好试了一下,可行。
爬取的链接如下:http://news.sohu.com/1/0903/61/subject212846158.shtml结构如下:从第二页开始的链接格式是:http://news.sohu.com/1/0903/61/subject212846158_1091.shtml逐页递减(即1091、1090如此)。需要的内容: 标题、时间、来源、作者、全文。准备: urllib2, BeautifulSoup, lxml先引入这几个库先用开发者工具得到headers(当然我们这里不用headers也可以)
利用selector进行解析的时候是用到了开发者工具的定位功能,定位元素后,右键copy-selector即可,当然要注意nth-child(x)需要改成nth-of-type(x),在这里我们用了这样的表达方式,是因为在该页面的结构中,新闻是以子项目排列的。如第一条就是nth-of-type(1),第二条就是nth-of-type(2),如此列推。测试一下结果:
结果如下:现在仅仅是解决了标题、时间、链接,我们还有来源,作者。但是我们已经获得了每一条新闻的链接,那么这就很好办了。我们先看一下每一条新闻的结构:同理 香港云主机、很容易就能提取出来源、责任编辑。代码如下:在原来的函数中增加如下代码:由于来源和责任编辑不一定每一条新闻都有,因此这里加了一个判断条件。现在看看效果。效果还可以,再提取所有页面的内容调用一下:成功爬取了所有国内要闻。上面已经是全部源代码了,当然如果你觉得这样看很麻烦的话,可以在这里下载:https://alltoshare.com/product/2747.html感谢各位的阅读,以上就是“怎么用BeautifulSoup爬取网页内容”的内容了,经过本文的学习后,相信大家对怎么用BeautifulSoup爬取网页内容这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是开发云,小编将为大家推送更多相关知识点的文章,欢迎关注!

相关推荐: 笔记本电脑如何激活管理员权限

小编给大家分享一下笔记本电脑如何激活管理员权限,相信大 香港云主机部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1、获得超级管理员权限最简单的办法是,打开Win7旗舰版的控制面板,在“系统和…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

Like (0)
Donate 微信扫一扫 微信扫一扫
Previous 08/06 19:06
Next 08/06 19:06

相关推荐