怎么用BeautifulSoup爬取网页内容

1449272589 • 08/06 19:06 • Linux技术 • 95 views

这篇文章主要讲解了“怎么用BeautifulSoup爬取网页内容”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用BeautifulSoup爬取网页内容”吧！最近要做一个食品安全方面的项目，需要爬取新闻。于是想到之前用BeautifulSoup爬虫还是非常方便的，今天正好试了一下，可行。
爬取的链接如下:http://news.sohu.com/1/0903/61/subject212846158.shtml结构如下：从第二页开始的链接格式是:http://news.sohu.com/1/0903/61/subject212846158_1091.shtml逐页递减（即1091、1090如此）。需要的内容: 标题、时间、来源、作者、全文。准备: urllib2, BeautifulSoup, lxml先引入这几个库先用开发者工具得到headers(当然我们这里不用headers也可以)
利用selector进行解析的时候是用到了开发者工具的定位功能，定位元素后，右键copy-selector即可，当然要注意nth-child(x)需要改成nth-of-type(x),在这里我们用了这样的表达方式，是因为在该页面的结构中，新闻是以子项目排列的。如第一条就是nth-of-type(1),第二条就是nth-of-type(2)，如此列推。测试一下结果：
结果如下：现在仅仅是解决了标题、时间、链接，我们还有来源，作者。但是我们已经获得了每一条新闻的链接，那么这就很好办了。我们先看一下每一条新闻的结构：同理香港云主机、很容易就能提取出来源、责任编辑。代码如下：在原来的函数中增加如下代码：由于来源和责任编辑不一定每一条新闻都有，因此这里加了一个判断条件。现在看看效果。效果还可以，再提取所有页面的内容调用一下：成功爬取了所有国内要闻。上面已经是全部源代码了，当然如果你觉得这样看很麻烦的话，可以在这里下载：https://alltoshare.com/product/2747.html感谢各位的阅读，以上就是“怎么用BeautifulSoup爬取网页内容”的内容了，经过本文的学习后，相信大家对怎么用BeautifulSoup爬取网页内容这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是开发云，小编将为大家推送更多相关知识点的文章，欢迎关注！

相关推荐: 笔记本电脑如何激活管理员权限

小编给大家分享一下笔记本电脑如何激活管理员权限，相信大香港云主机部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！1、获得超级管理员权限最简单的办法是，打开Win7旗舰版的控制面板，在“系统和…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。