Python爬虫库-Beautiful Soup的使用

92U58PICXeh_1024.jpg

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

如在上一篇文章通过爬虫爬取漫画图片，获取信息纯粹用正则表达式进行处理，这种方式即复杂，代码的可阅读性也低。通过Beautiful Soup库，我们可以将指定的class或id值作为参数，来直接获取到对应标签的相关数据，这样的处理方式简洁明了。

当前最新的 Beautiful Soup 版本为4.4.0，Beautiful Soup 3 当前已停止维护。

Beautiful Soup 4 可用于 Python2.7 和 Python3.0，本文示例使用的Python版本为2.7。

博主使用的是Mac系统，直接通过命令安装库：

sudo easy_install beautifulsoup4

安装完成后，尝试包含库运行：

from bs4 import BeautifulSoup

若没有报错，则说明库已正常安装完成。

本文会通过这个网页http://reeoo.com来进行示例讲解，如下图所示

1.jpg

<h4>BeautifulSoup 对象初始化</h4>

将一段文档传入 BeautifulSoup 的构造方法，就能得到一个文档对象。如下代码所示，文档通过请求url获取：

#coding:utf-8

from bs4 import BeautifulSoup
import urllib2

url = 'http://reeoo.com'
request = urllib2.Request(url)
response = urllib2.urlopen(request, timeout=20)

content = response.read()
soup = BeautifulSoup(content, 'html.parser')

request 请求没有做异常处理，这里暂时先忽略。BeautifulSoup 构造方法的第二个参数为文档解析器，若不传入该参数，BeautifulSoup会自行选择最合适的解析器来解析文档，不过会有警告提示。

也可以通过文件句柄来初始化，可先将HTML的源码保存到本地同级目录 reo.html，然后将文件名作为参数：

soup = BeautifulSoup(open('reo.html'))

可以打印 soup，输出内容和HTML文本无二致，此时它为一个复杂的树形结构，每个节点都是Python对象。

Ps. 接下来示例代码中所用到的 soup 都为该soup。

Tag对象与HTML原生文档中的标签相同，可以直接通过对应名字获取

tag = soup.title
print tag

打印结果：

<title>Reeoo - web design inspiration and website gallery</title>

通过Tag对象的name属性，可以获取到标签的名称

print tag.name
# title

<h4>Attributes</h4>

一个tag可能包含很多属性，如id、class等，操作tag属性的方式与字典相同。

例如网页中包含缩略图区域的标签 article

...
<article class="box">
    <div id="main">
    <ul id="list">
        <li id="sponsor"><div class="sponsor_tips"></div>
            <script async type="text/javascript" src="//cdn.carbonads.com/carbon.js?zoneid=1696&serve=CVYD42T&placement=reeoocom" id="_carbonads_js"></script>
        </li>
...

获取它 class 属性的值

tag = soup.article
c = tag['class']

print c     
# [u'box']

也可以直接通过 .attrs 获取所有的属性

tag = soup.article
attrs = tag.attrs

print attrs
# {u'class': [u'box']}

ps. 因为class属于多值属性，所以它的值为数组。

<h4>tag中的字符串</h4>

通过 string 方法获取标签中包含的字符串

tag = soup.title
s = tag.string

print s
# Reeoo - web design inspiration and website gallery

<h3>文档树的遍历</h3>

一个Tag可能包含多个字符串或其它的Tag，这些都是这个Tag的子节点。Beautiful Soup提供了许多操作和遍历子节点的属性。

通过Tag的 name 可以获取到对应标签，多次调用这个方法，可以获取到子节点中对应的标签。

如下图：

2.jpg

我们希望获取到 article 标签中的 li

tag = soup.article.div.ul.li
print tag

打印结果：

<li id="sponsor"><div class="sponsor_tips"></div>
<script async="" id="_carbonads_js" src="//cdn.carbonads.com/carbon.js?zoneid=1696&serve=CVYD42T&placement=reeoocom" type="text/javascript"></script>
</li>

也可以把中间的一些节点省略，结果也一致

tag = soup.article.li

通过 . 属性只能获取到第一个tag，若想获取到所有的 li 标签，可以通过 find_all() 方法

ls = soup.article.div.ul.find_all('li')

获取到的是包含所有li标签的列表。

tag的 .contents 属性可以将tag的子节点以列表的方式输出:

tag = soup.article.div.ul
contents = tag.contents

打印 contents 可以看到列表中不仅包含了 li 标签内容，还包括了换行符 '\n'

过tag的 .children 生成器,可以对tag的子节点进行循环

tag = soup.article.div.ul
children = tag.children
print children

for child in children:
    print child

可以看到 children 的类型为 <listiterator object at 0x109cb1850>

.contents 和 .children 属性仅包含tag的直接子节点，若要遍历子节点的子节点，可以通过 .descendants 属性，方法与前两者类似，这里不列出来了。

通过 .parent 属性来获取某个元素的父节点，article 的父节点为 body。

tag = soup.article
print tag.parent.name
# body

或者通过 .parents 属性遍历所有的父辈节点。

tag = soup.article
for p in tag.parents:
    print p.name

.next_sibling 和 .previous_sibling 属性用来插叙兄弟节点，使用方式与其他的节点类似。

<h3>文档树的搜索</h3>

对树形结构的文档进行特定的搜索是爬虫抓取过程中最常用的操作。

find_all(name , attrs , recursive , string , ** kwargs)

查找所有名字为 name 的tag

soup.find_all('title')
# [<title>Reeoo - web design inspiration and website gallery</title>]

soup.find_all('footer')
# [<footer id="footer">\n<div class="box">\n<p> ... </div>\n</footer>]

<h5>keyword 参数</h5>

如果指定参数的名字不是内置的参数名（name , attrs , recursive , string），则将该参数当成tag的属性进行搜索，不指定tag的话则默认为对所有tag进行搜索。

如，搜索所有 id 值为 footer 的标签

soup.find_all(id='footer')
# [<footer id="footer">\n<div class="box">\n<p> ... </div>\n</footer>]

加上标签的参数

soup.find_all('footer', id='footer')
# [<footer id="footer">\n<div class="box">\n<p> ... </div>\n</footer>]

# 没有id值为'footer'的div标签，所以结果返回为空
soup.find_all('div', id='footer')
# []

获取所有缩略图的 div 标签，缩略图用 class 为 thumb 标记

soup.find_all('div', class_='thumb')

这里需要注意一点，因为 class 为Python的保留关键字，所以作为参数时加上了下划线，为“class_”。

指定名字的属性参数值可以包括：字符串、正则表达式、列表、True/False。

<h5>True/False</h5>

是否存在指定的属性。

搜索所有带有 target 属性的标签

soup.find_all(target=True)

搜索所有不带 target 属性的标签（仔细观察会发现，搜索结果还是会有带 target 的标签，那是不带 target 标签的子标签，这里需要注意一下。）

soup.find_all(target=False)

可以指定多个参数作为过滤条件，例如页面缩略图部分的标签如下所示：

...

<li>
    <div class="thumb">
        <a href="http://reeoo.com/aim-creative-studios">![AIM Creative Studios](http://upload-images.jianshu.io/upload_images/1346917-f6281ffe1a8f0b18.gif?imageMogr2/auto-orient/strip)</a>
    </div>
    <div class="title">
        <a href="http://reeoo.com/aim-creative-studios">AIM Creative Studios</a>
    </div>
</li>

...

搜索 src 属性中包含 reeoo 字符串，并且 class 为 lazy 的标签：

soup.find_all(src=re.compile("reeoo.com"), class_='lazy')

搜索结果即为所有的缩略图 img 标签。

有些属性不能作为参数使用，如 data-**** 属性。在上面的例子中，data-original 不能作为参数使用，运行起来会报错，SyntaxError: keyword can't be an expression*。

<h5>attrs 参数</h5>

定义一个字典参数来搜索对应属性的tag，一定程度上能解决上面提到的不能将某些属性作为参数的问题。

例如，搜索包含 data-original 属性的标签

print soup.find_all(attrs={'data-original': True})

搜索 data-original 属性中包含 reeoo.com 字符串的标签

soup.find_all(attrs={'data-original': re.compile("reeoo.com")})

搜索 data-original 属性为指定值的标签

soup.find_all(attrs={'data-original': 'http://media.reeoo.com/Bersi Serlini Franciacorta.png!page'})

<h5>string 参数</h5>

和 name 参数类似，针对文档中的字符串内容。

搜索包含 Reeoo 字符串的标签：

soup.find_all(string=re.compile("Reeoo"))

打印搜索结果可看到包含3个元素，分别是对应标签里的内容，具体见下图所示

3.jpg

4.jpg

5.jpg

<h5>limit 参数</h5>

find_all() 返回的是整个文档的搜索结果，如果文档内容较多则搜索过程耗时过长，加上 limit 限制，当结果到达 limit 值时停止搜索并返回结果。

搜索 class 为 thumb 的 div 标签，只搜索3个

soup.find_all('div', class_='thumb', limit=3)

打印结果为一个包含3个元素的列表，实际满足结果的标签在文档里不止3个。

<h5>recursive 参数</h5>

find_all() 会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False。

find(name , attrs , recursive , string , ** kwargs)

find() 方法和 find_all() 方法的参数使用基本一致，只是 find() 的搜索方法只会返回第一个满足要求的结果，等价于 find_all() 方法并将limit设置为1。

soup.find_all('div', class_='thumb', limit=1)
soup.find('div', class_='thumb')

搜索结果一致，唯一的区别是 find_all() 返回的是一个数组，find() 返回的是一个元素。

当没有搜索到满足条件的标签时，find() 返回 None，而 find_all() 返回一个空的列表。

<h4>CSS选择器</h4>

Tag 或 BeautifulSoup 对象通过 select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag。

语义和CSS一致，搜索 article 标签下的 ul 标签中的 li 标签

print soup.select('article ul li')

通过类名查找，两行代码的结果一致，搜索 class 为 thumb 的标签

soup.select('.thumb')
soup.select('[class~=thumb]')

通过id查找，搜索 id 为 sponsor 的标签

soup.select('#sponsor')

通过是否存在某个属性来查找，搜索具有 id 属性的 li 标签

soup.select('li[id]')

通过属性的值来查找查找，搜索 id 为 sponsor 的 li 标签

soup.select('li[id="sponsor"]')

其他的搜索方法还有：

find_parents() 和 find_parent()

find_next_siblings() 和 find_next_sibling()

find_previous_siblings() 和 find_previous_sibling()

...

参数的作用和 find_all()、find() 差别不大，这里就不再列举使用方式了。这两个方法基本已经能满足绝大部分的查询需求。

还有一些方法涉及文档树的修改。对于爬虫来说大部分工作只是检索页面的信息，很少需要对页面源码做改动，所以这部分的内容也不再列举。

具体详细信息可直接参考Beautiful Soup库的官方说明文档

【完】。：）

最后编辑于：2017.12.04 18:30:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

Python爬虫库-Beautiful Soup的使用

推荐阅读更多精彩内容