这篇文章主要介绍“Python爬虫解析器BeautifulSoup4怎么使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python爬虫解析器BeautifulSoup4怎么使用”文章能帮助大家解决问题。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。BeautifulSoup4将网页转换为一颗DOM树:
1. window电脑点击win键+ R
,输入:cmd
2. 安装beautifulsoup4
,输入对应的pip命令:pip install beautifulsoup4
,我已经安装过了出现版本就安装成功了
3. 导包BeautifulSoup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一 些第三方解析器(比如lxml):对于我们来说,我们最常使用的解析器是lxml HTML
解析器,其次是html5lib.
1. 读取HTML字符串:
2. 读取HTML文件:3. 基本方法
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment .
(1)Tag:Tag通俗点讲就是HTML中的一个个标签,例如:输出结果:Tag有很多方法和属性,在 遍历文档树 和 搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name
和attributes
:name属性:Attributes属性:tag 的属性可以被添加、修改和删除:(2)N免费云主机域名avigableString:用.string
获取标签内部的文字:(3)BeautifulSoup:表示的是一个文档的内容,可以获取它的类型,名称,以及属性:(4)Comment:是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。1.find_all(name, attrs, recursive, text, **kwargs)
(1)name 参数:name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉匹配字符串:查找与字符串完整匹配的内容,用于查找文档中所有的标签匹配正则表达式:如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容匹配列表:如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回标签和标签:soup.find_all([“p”,”a”])(2)kwargs参数(3)text参数:通过 text 参数可以搜搜文档中的字符串内容,与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表我们在使用BeautifulSoup解析库时,经常会结合CSS选择器来提取数据。注意:以下讲解CSS选择器只选择标签,至于获取属性值和文本内容我们后面再讲。1. 根据标签名查找:比如写一个
li
就会选择所有li 标签
, 不过我们一般不用,因为我们都是精确到标签再提取数据的
输出结果:2. 根据类名class查找。.1ine
, 即一个点加line,这个表达式选的是class= "line "
的所有标签,".”
代表class输出结果:
这篇“go语言常量有哪些”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“go语言常量有哪些”文章吧。 go语言常量有5种:布尔型常量、整数型常量、…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。