XPath怎么用

这篇文章将为大家详细讲解有关XPath怎么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。
1，XPath的使用在使用前，需要安装lxml库。安装代码：pip3 install lxml1.1XPath的常用规则:/ 表示选取直接子节点// 表示选取所有子孙节点. 选取当前节点.. 选取当前结点的父节点@ 选取属性看完这些？你是不是还是一脸懵逼？下面我们来实际运用一下。1.2实例引用如图：导入etree模块etree.HTML()是构造一个XPath对象etree.tostring()是对代码进行修正，如果有缺失的部分，会自动修复方法比较简单，就不截取效果图了。如果我们相对本地的文件进行解析怎么办？我们可以这样写etree.parse()第一个参数为html的路径，第二（etree.HTMLParser()）和上面etree.HTML()的性质是一样的，为了方便，接下里我使用对本地文件进行解析。html文本如下：1.3获取所有的节点香港云主机结果：开头用//表示选取所有符合的节点，*表示获取所有的节点，上面两句话一看这不是一个意思吗？会不懂！我们可以分为两步理解:第一步//是选取所有符合要求的节点，没有指明是什么要求！，不知道你要获取什么.第二步*表示所有节点，所以才会获取所有节点。这样理解起来应该会很容易了吧。注意：返回的是一个列表1.4获取指定的节点还是上面的html文本，如果我们想获取li节点怎么办？只需要将result_text=html.xpath(‘//*’)修改成result_text=html.xpath(‘//li’)如果想获取a节点，就修改成//a,也可以写成//li//a，或者//ul//a获取//li/a都是可以获取到但是如果//ul/a是获取不到的因为/表示的是直接子节点注意：返回的都是节点，并不是文本信息。即：这种形式。1.4属性匹配如果我们想要a标签的href属性，我们可以修改成//a/@href返回结果：返回的也是一个列表如果我们想要匹配class为li_1的li，可以修改成//li[@class=”li_1″]即可1.5父节点匹配我们来获取link2.html的a节点的父节点的class属性，我们是需要修改成//a[@href=”link2.html”]/../@class，这里的..表示寻找父节点，返回的依然是一个列表。1.6获取文本我们来获取class为li_3的li下a的文本，可以写成//li[@class=”li_3″]/a/text()即可1.7contains()函数比如其中有一个li为：此时：li具有两个class名，我们如果这样写//li[@class=”li”]是获取不到节点的那么我们可以这样写获取到节点//li[contains(@class,”li”)]。1.8多属性获取获取class名为li或者id为caidan的li就用or。1.9，last(),position()函数上面的html有很多li，如果我只想获取第一个可以这样：//li[1],同理第二个改成2就可以了，如果想获取最后一个：//li[last()]如果想获取前两个：//li[position()
2,Beautiful Soup的使用同样的在使用前我们也要安装Beautiful Soup没有安装的请自行安装。首先导入模块：from bs4 import BeautifulSoup这次我们直接用一个网站来试试，我选择的是猫眼网，你可以选择其他网站哦。获取网页部分，上节有教，链接：python第二大神器requests如图：2.1初始化BeautifulSoup()第一个参数为获取的网页内容，第二个参数为lxml，为什么是lxml？因为Beautiful Soup在解析时依赖解析器，python自带的解析器，容错能力差，比较慢，所以我们使用第三方解析器lxml，prettify()是将获取的内容以缩进的方式输出，看起来很舒服如图：看起来舒服多了。2.2获取值我们来获取一下title信息，我们是需要这样。结果：我们可以看到title获取的是title节点的所有信息，而加个string就变成了title里的文本内容，这样是不是也是很简单？2.21获取属性值比如，我们想要获取img的src属性，我们只需要，soup.img[‘src’]就可以获取到，soup.img.arrts[‘src’]也可以获取到。如果想获取到所有的属性就这样写：soup.img.arrts即可如图所示：注意：所有的属性返回的形式是以字典的形式返回。2.3获取直接子节点和子孙节点，父节点，祖先节点，兄弟节点获取直接子节点：contents，例如我想获取p标签的直接子节点：soup.p.contents即可获取子孙节点：descendants,例如我想获取p标签的子孙节点：soup.p.descendants即可获取父节点：parent属性，例如我想获取p标签的父节点：soup.p.parent即可获取祖先节点：parents属性，例如我想获取p标签的祖先节点：soup.p.parents即可获取兄弟节点：next_sibling,previous_sibling,next_siblings,previous_siblings分别为下一个兄弟节点，上一个兄弟节点，上面所有的兄弟节点，下面所有的兄弟节点。2.4获取文本属性string为获取文本attrs为获取属性2.5方法选择器find_all()返回的一个列表，匹配所有符合要求的元素如果我们想要获取ul可以这样写：soup.find_all(name=’ul’)如果我们想要获取id为id1属性可以这样写：soup.find_all(arrts[id=’id1′])如果我们想要获取class为class1属性可以这样写：soup.find_all(arrts[class_=’class1′])因为class有特殊意义，所以我们获取class的时候价格_即可如果我们想要获取文本值可以这样写：soup.find_all(text=re.compile(”))匹配text需要用到正则，匹配你想要的text值find()只返回一个值，匹配到符合要求的第一个值。用法和上面的方法一样注意：以上说有的属性，方法都是通过我实例的soup来调用，soup是我的命名，你可以修改它，同时你调用就要用你的命名了2.6css选择器我们如果用css选择器需要调用select()方法比如想获取class名为class1的节点，我们可以这样写：soup.select(‘.class1’)即可，和css的表达方式是一样的，但是他的css选择器功能不够强大，下面我们介绍一个针对css的解析库。3，pyquery的使用首先要安装pyquery没有安装的请自行安装。导入模块：from pyquery import PyQuery首先和上面的一样，同样需要初始化，获取对象如下：结果：这样就获取到了所有的li此外：初始化对象时，可以填写文本（上面就是），还可以填写url：PyQuery(url=’https://maoyan.com/’)还可以填写本地文件：PyQuery(filename=”),”中填写本地文件的路径3.1css选择器的基本用法如果想选取class名为class1下的li可以这样写result(‘.class li’)和css的选择器写法是一样的。3.2find()方法，子节点，父节点，兄弟节点和上面不同这里的find()方法是查找所有的子孙节点，如果想获取li下的所有a节点可以这样写：result(‘li’).find(‘a’)即可如果只想查找子节点：children()方法即可父节点：parent()获取直接父节点获取所有父节点：parents()获取所有父节点，如果只想要父节节点中class为class1的可以这样写：parents(‘.class1’)注意：输出的是父节点的所有内容。兄弟节点：siblis()方法，如果只想要兄弟节点中id为id1的可以这样写：parents(‘#id1’)3.3对于获取的结果，不想上面返回的是列表，这里如果返回多个对象需要for循环遍历3.4获取属性，文本，例如我们想要获取li下a的href属性（attr()函数），由于有多个结果，所以我们这里需要遍历。如图：结果：注意：如果不遍历，只会输出第一个如果我们想要获取文本值：text()方法，只需要将attr()函数改为text()函数即可3.6对属性，文本，class的删除，修改addClass(‘class1’):表示添加一个class名，名字为class1removeClass(‘class1’)表示删除一个class名，名字为class1我们来实例一下：结果：同时我们还可以添加属性，文本添加属性：attr(‘name’,’name1′)添加文本：text(‘123123’)添加代码：html(‘12122′)有了添加，就有删除remove()函数比如如果我们想删除li下的所有a节点可以这样写：result(‘li’).find(‘a’).remove()关于“XPath怎么用”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

相关推荐: 如何用React和高德地图实时获取经纬度定位地址

本文小编为大家详细介绍“如何用React和高德地图实时获取经纬度定位地址”，内容详细，步骤清晰，细节处理妥当，希望这篇“如何用React和高德地图实时获取经纬度定位地址”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。1.根据高德官方的…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。