xPath 用法总结整理

一、xpath介绍

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

XPath 使用路径表达式在 XML 文档中进行导航
XPath 包含一个标准函数库
XPath 是 XSLT 中的主要元素
XPath 是一个 W3C 标准
节点
在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。
请看下面这个 XML 文档：

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>

上面的XML文档中的节点例子：

<bookstore> (文档节点)
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点)

XPath 术语

概念	解释	举例
基本值（或称原子值，Atomic value）	基本值是无父或无子的节点	J K. Rowling，"en"
项目（Item）	项目是基本值或者节点
节点关系-父（Parent）	每个元素以及属性都有一个父。	在上面的例子中，book 元素是 title、author、year 以及 price 元素的父：
节点关系-子（Children）	元素节点可有零个、一个或多个子。	在上面的例子中，title、author、year 以及 price 元素都是 book 元素的子：
节点关系-同胞（Sibling）	拥有相同的父的节点。	在上面的例子中，title、author、year 以及 price 元素都是同胞：
节点关系-先辈（Ancestor）	某节点的父、父的父，等等。	在上面的例子中，title 元素的先辈是 book 元素和 bookstore 元素。
后代（Descendant）	某个节点的子，子的子，等等。	在上面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素。

二、xpath语法

路径表达式语法：

路径 = 相对路径 | 绝对路径
XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
步进表达式=轴节点测试谓词
说明：

其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系（层次关系），节点测试指定步进表达式选择的节点名称扩展名，谓词即相当于过滤表达式以进一步过滤细化节点集。
谓词可以是0个或多个。多个多个谓词用逻辑操作符and， or连接。取逻辑非用not()函数。
请看一个典型的XPath查询表达式：/messages/message//child::node()[@id=0]，其中/messages/message是路径（绝对路径以"/"开始），child::是轴表示在子节点下选择，node()是节点测试表示选择所有的节点。[@id=0]是谓词，表示选择所有有属性id并且值为0的节点。

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

例子

以下面这个xml为例子

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

例子：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

选取若干路径
通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

//book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
//title | //price 选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

三、轴

轴可定义相对于当前节点的节点集。

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。
child	选取当前节点的所有子元素。
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
following	选取文档中当前节点的结束标签之后的所有节点。
namespace	选取当前节点的所有命名空间节点。
parent	选取当前节点的父节点。
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。

步的语法：
轴名称::节点测试[谓语]

例子：

例子	结果
child::book	选取所有属于当前节点的子元素的 book 节点。
attribute::lang	选取当前节点的 lang 属性。
child::*	选取当前节点的所有子元素。
attribute::*	选取当前节点的所有属性。
child::text()	选取当前节点的所有文本子节点。
child::node()	选取当前节点的所有子节点。
descendant::book	选取当前节点的所有 book 后代。
ancestor::book	选择当前节点的所有 book 先辈。
ancestor-or-self::book	选取当前节点的所有 book 先辈以及当前节点（如果此节点是 book 节点）
child::*/child::price	选取当前节点的所有 price 孙节点。

四、一些函数

1. starts-with函数

获取以xxx开头的元素
例子：xpath(‘//div[stars-with(@class,”test”)]’)

2 contains函数

获取包含xxx的元素
例子：xpath(‘//div[contains(@id,”test”)]’)

3 and

与的关系
例子：xpath(‘//div[contains(@id,”test”) and contains(@id,”title”)]’)

4 text()函数

例子1：xpath(‘//div[contains(text(),”test”)]’)
例子2：xpath(‘//div[@id=”“test]/text()’)

五、一个lxml的xpath示例

# _*_ encoding =utf-8 _*_
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
body ='''
<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
 <p>test</p>
 <span>good</span>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
  </div>
  <div class="text1">
  <span class="righttext">
  <a href="//jandan.net/ooxx/page-40#comment-3939483">3939483</a>
  </span>
  <p><a href="//wx4.sinaimg.cn/large/0076BSS5ly1fukuydd6q8j30k00zkjvw.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
  <img src="http://wx4.sinaimg.cn/mw600/0076BSS5ly1fukuydd6q8j30k00zkjvw.jpg" style="max-width: 480px; max-height: 750px;"></p>
 </div>
 <div class="text2">
 <span class="righttext">
 <a href="//jandan.net/ooxx/page-40#comment-3939362">3939362</a></span>
 <p><a href="//wx1.sinaimg.cn/large/5d70f687ly1fuio0bjk9aj20mk0s71kx.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
 <img src="http://wx1.sinaimg.cn/mw600/5d70f687ly1fuio0bjk9aj20mk0s71kx.jpg" style="max-width: 480px; max-height: 750px;"></p>
</div>
<div class="text3">
<span class="righttext">
<a href="//jandan.net/ooxx/page-40#comment-3939288">3939288</a></span>
<p><a href="//ww3.sinaimg.cn/large/006XNEY7gy1fukqal7th2j30p00p0jtd.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
<img src="http://ww3.sinaimg.cn/mw600/006XNEY7gy1fukqal7th2j30p00p0jtd.jpg" style="max-width: 480px; max-height: 750px;"></p>
</div>
 </body>
</html>
'''
#Scrapy selector是以 文字(text) 或 TextResponse 构造的 Selector 实例。
#其根据输入的类型自动选择最优的分析方法(XML vs HTML):
spantest =Selector(text=body).xpath('//span/text()').extract()
print(spantest)

#response对象以 .selector 属性提供了一个selector， 您可以随时使用该快捷方法:

response = HtmlResponse(url='http://www.baidu.com', body=body,encoding='UTF-8')
ptest =Selector(response=response).xpath('//p/text()').extract()
print(ptest)

#构建一个XPath来选择title标签内的文字:
title =Selector(text=body).xpath('//title/text()').extract()
print(title)

#由于在response中使用XPath、CSS查询十分普遍，
#因此，Scrapy提供了两个实用的快捷方式: response.xpath() 及 response.css():
csstest =response.css('title::text').extract()
print(csstest)
#现在我们将得到根URL(base URL)和一些图片链接:
basehref =response.xpath('//base/@href').extract()
print(basehref)
basehref2=response.css('base::attr(href)').extract()
print(basehref2)
imagehref =response.xpath('//a[contains(@href, "image")]/@href').extract()
print(imagehref)
imagehref2 =response.css('a[href*=image]::attr(href)').extract()
print(imagehref2)
imagesrc =response.xpath('//a[contains(@href, "image")]/img/@src').extract()
print(imagesrc)
imagesrc2 =response.css('a[href*=image] img::attr(src)').extract()
print(imagesrc2)
#选择器方法( .xpath() or .css() )返回相同类型的选择器列表，因此你也可以对这些选择器调用选择器方法。
links = response.xpath('//a[contains(@href, "image")]')
print(links.extract())
for index, link in enumerate(links):
        args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
        print('Link number %d points to url %s and image %s' % args)

#结合正则表达式使用选择器(selectors)
#Selector 也有一个 .re() 方法，用来通过正则表达式来提取数据。
#然而，不同于使用 .xpath() 或者 .css() 方法, .re() 方法返回unicode字符串的列表。所以你无法构造嵌套式的 .re() 调用。
re =response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
print(re)
print('==================================')
#使用相对XPaths
#记住如果你使用嵌套的选择器，并使用起始为 / 的XPath，
#那么该XPath将对文档使用绝对路径，而且对于你调用的 Selector 不是相对路径。
divs = response.xpath('//div')
for p in divs.xpath('.//p'):  # 注意 .//p XPath的点前缀
    print(p.extract())
print('==================================')
#另一种常见的情况将是提取所有直系 <p> 的结果
for p in divs.xpath('p'):
    print(p.extract())
print('==================================')
#指定div的class选取图片
imagesrc =response.xpath('//div[contains(@class,"text1")]/p/img/@src').extract()
print(imagesrc)

运行结果：

运行结果

六、常用表达式列表

常用表达式实例：

表达式	说明
/	Document Root文档根.
/*	选择文档根下面的所有元素节点，即根节点（XML文档只有一个根节点）
/node()	根元素下所有的节点（包括文本节点，注释节点等）
/text()	查找文档根节点下的所有文本节点
/messages/message	messages节点下的所有message节点
/messages/message[1]	messages节点下的第一个message节点
/messages/message[1]/self::node()	第一个message节点（self轴表示自身，node()表示选择所有节点）
/messages/message[1]/node()	第一个message节点下的所有子节点
/messages/message[1]/*[last()]	第一个message节点的最后一个子节点
/messages/message[1]/[last()]	Error，谓词前必须是节点或节点集
/messages/message[1]/node()[last()]	第一个message节点的最后一个子节点
/messages/message[1]/text()	第一个message节点的所有子节点
/messages/message[1]//text()	第一个message节点下递归下降查找所有的文本节点（无限深度）
/messages/message[1] /child::node() /messages/message[1] /node() /messages/message[position()=1] /node()//message[@id=1] /node()	第一个message节点下的所有子节点
//message[@id=1] //child::node()	递归所有子节点（无限深度）
//message[position()=1]/node()	选择id=1的message节点以及id=0的message节点
/messages/message[1] /parent::*	Messages节点
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..	attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样（..也表示父节点. 表示自身节点）
//message[@id=0]/ancestor::*	Ancestor轴表示所有的祖辈，父，祖父等。向上递归
//message[@id=0]/ancestor-or-self::*	向上递归,包含自身
//message[@id=0]/ancestor::node()	对比使用*,多一个文档根元素(Document root)
/messages/message[1]/descendant::node()//messages/message[1]//node()	递归下降查找message节点的所有节点
/messages/message[1]/sender/following::*	查找第一个message节点的sender节点后的所有同级节点，并对每一个同级节点递归向下查找。
//message[@id=1]/sender/following-sibling::*	查找id=1的message节点的sender节点的所有后续的同级节点。
//message[@id=1]/datetime/@date	查找id=1的message节点的datetime节点的date属性
//message[@id=1]/datetime[@date] //message/datetime[attribute::date]	查找id=1的message节点的所有含有date属性的datetime节点
//message[datetime]	查找所有含有datetime节点的message节点
//message/datetime/attribute::* //message/datetime/attribute::node()
//message/datetime/@*	返回message节点下datetime节点的所有属性节点
//message/datetime[attribute::*] //message/datetime[attribute::node()]
//message/datetime[@*] //message/datetime[@node()]	选择所有含有属性的datetime节点
//attribute::*	选择根节点下的所有属性节点
//message[@id=0]/body/preceding::node()	顺序选择body节点所在节点前的所有同级节点。（查找顺序为：先找到body节点的顶级节点（根节点）,得到根节点标签前的所有同级节点，执行完成后继续向下一级，顺序得到该节点标签前的所有同级节点，依次类推。）注意：查找同级节点是顺序查找，而不是递归查找。
//message[@id=0]/body/preceding-sibling::node()	顺序查找body标签前的所有同级节点。（和上例一个最大的区别是：不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环，而只查找当前节点前的同级节点）
//message[@id=1]//*[namespace::amazon]	查找id=1的所有message节点下的所有命名空间为amazon的节点。
//namespace::*	文档中的所有的命名空间节点。（包括默认命名空间xmlns:xml）
//message[@id=0]//books/*[local-name()='book']	选择books下的所有的book节点，注意：由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']	选择books下的所有的book节点，(节点名和命名空间都匹配)
//message[@id=0]//books/*[local-name()='book'][year>2006]	选择year节点值>2006的book节点
//message[@id=0]//books/*[local-name()='book'][1]/year>2006	指示第一个book节点的year节点值是否大于2006.返回xs:boolean: true

内容参考：http://www.runoob.com/xpath/xpath-tutorial.html
参考：https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/selectors.html#topics-selectors

也可以学习下简书其他作者的文章：https://www.jianshu.com/p/1575db75670f

最后编辑于：2018.08.27 09:32:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,907评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,546评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,705评论 0赞 238
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,624评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,940评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,371评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,672评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,396评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,069评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,350评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,876评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,243评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,847评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,004评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,755评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,378评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,266评论 2赞 259