学习lxml解析html两小时后总结

总的：

from lxml import etree
对html文本使用 etree.HTML(html)解析，得到Element对象

（报错可以尝试 etree.HTML(html.decode('utf-8'))）
html文本的获取，比如：request.get(url).text

对Element对象使用xpath筛选，返回一个列表（里面的元素也是Element）。

安装：

我使用的wheel安装，下载

使用说明（给定一个html如下）：

<html>
　　<head>
　　　　<meta name="content-type" content="text/html; charset=utf-8" />
　　　　<title>友情链接查询 - 站长工具</title>
　　　　<!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->
　　　　<meta name="Keywords" content="友情链接查询" />
　　　　<meta name="Description" content="友情链接查询" />
　　</head>
　　<body>
　　　　<h1 class="heading">Top News</h1>
　　　　<p style="font-size: 200%">World News only on this page</p>
　　　　Ah, and here's some more text, by the way.
　　　　<p>... and this is a parsed fragment ...</p>
　　　　<a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a> 
　　　　<a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a>
　　　　<a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a> 
　　　　<a href="http://game.3533.com/game/" target="_blank">手机游戏</a>
　　　　<a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>
　　　　<a href="http://www.4399.com/" target="_blank">4399小游戏</a> 
　　　　<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>

　　</body>
</html>

解析html：

from lxml import etree
page = etree.HTML(html)

获取标签：

# a标签
tag_a = page.xpath('/html/body/a')
print(tag_a)  
# html 下的 body 下的所有 a
# 结果[<Element a at 0x34b1f08>, ...]

对于/html/body/a：“/”分隔上下级，最开始是文件本身（而不是html），文件下一级才是html
另外，使用//a效果等价于“html下的所有 a 标签”：
　　因为：中间的“/”等于“descendant::”

“descendant::”前缀可以指代任意多层的中间节点，它也可以被省略成一个“/”

在本例中：因为上面的 html 中，所有 a 都在 body 中，所以：/html/body/a 等价于 /descendant::a等价于//a

获取节点（标签）属性：

for a in tag_a:
    print(a.attrib)    
    # 获取属性： {'target': '_blank', 'rel': 'nofollow', 'href': 'http://www.cydf.org.cn/'}
    print(a.get('href'))
    # 获取某一属性：http://www.cydf.org.cn/
    print(a.text)
    # 获取文本： 青少年发展基金会

利用属性筛选标签

# 直接定位到<h1 class="heading">Top News</h1>
hs = page.xpath('//h1[@class="heading"]')
for h in hs:
    print(h.values())
    print(h.text)
    # 打印结果：
    # ['heading']
    # Top News

上面还可以写作：hs = page.xpath('/html/body/h1[@class="heading"]')
属性还可以写：

@name, @id, @value, @href, @src, @class....

没有属性可以用文本或者位置来筛选：

文本用 text()：hs = page.xpath('/html/body/h1[text()="Top News"]')
位置用 position()：hs = page.xpath('//h1[position()=1]')
对于位置筛选，常常省略，直接用：hs = page.xpath('//h1[1]')

筛选任意标签

*表示任意标签

ts = page.xpath('/*')
for t in ts:
    print(t.tag)
    # 打印:html
    # html是文件的唯一下一级标签

ts = page.xpath('/html/*')
for t in ts:
    print(t.tag)
    # 打印:body
    # body是html的唯一下一级标签

ts = page.xpath('/html//*')
for t in ts:
    print(t.tag)
    # 打印：body、p、meta、title、meta、meta、h1、p等等

获取head里面的标签要特别一点：

比如 ('//html/head/*') 或 ('//html/head/title')

关于preceding-sibling:: 和 following-sibling::：

preceding-sibling::前缀表示同一层的上一个节点。
following-sibling::前缀表示同一层的下一个节点。
following-sibling:: 就是任意下一个节点，而 “following-sibling::u” 就是下一个u节点。
preceding-sibling:: 同理。

sbs = page.xpath('//body//following-sibling::a')
for sb in sbs:
    print(sb.tag)
    # 打印：a a a a a a ...

sbs = page.xpath('//body/h1/following-sibling::*')
for sb in sbs:
    print(sb.tag)
    # h1 下，所有 h1 同级的子节点（标签）
    # 打印：p p a a a a ...

sbs = page.xpath('//body/h1/preceding-sibling::*')
for sb in sbs:
    print(sb.tag)
    # h1 上，所有 h1 同级的子节点（标签）
    # 打印： p、meta、title、meta、meta

关于tail（给定新的html如下）：

<div class="news">
    <b>无流量站点清理公告</b>
    <br />
    取不到的内容
    </div>

page = etree.HTML(html)
brs = page.xpath('//br')
for br in brs:
    print(br.text)
    print(br.tail.strip())
    # 打印：
    # None
    # 取不到的内容

主要因为，上面的 html 中“取不到的内容”在两个“/”之间，所以不能用 .text 直接上，要用tail。

tail 的意思是结束节点前面的内容，也就是说在 “br /” 与 “/div” 之间的内容

参考网页：
李少宏·用lxml解析HTML
Marhol·Python+lxml解析html
无风·XPath学习:轴(8)——following-sibling

英文资料（备用吧）：
Elements and Element Trees
lxml - XML and HTML with Python

最后编辑于：2017.12.04 01:50:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

学习lxml解析html两小时后总结

总的：

安装：

使用说明（给定一个html如下）：

解析html：

获取标签：

获取节点（标签）属性：

利用属性筛选标签

筛选任意标签

关于preceding-sibling:: 和 following-sibling::：

关于tail（给定新的html如下）：

推荐阅读更多精彩内容