【爬虫】python+selenium+firefox使用与部署详解

我的梦想，值得我本人去争取，我今天的生活，绝不是我昨天生活的冷淡抄袭。—— 司汤达《红与黑》

一. 概述

以前对爬虫感兴趣学习了 requests、scrapy 等 python 库用来爬取一些网站数据，最近刚好由于需要，又开始做一些爬虫相关的工作，写本文的目的是将自己学习过程和遇到的问题记录下来，一方面巩固学习的知识，另一方面希望对遇到同样问题的朋友提供一些帮助。

本文主要从以下几个方面介绍（这也是自己学习的过程）：

为什么要使用 selenium
传统方式配置使用 selenium

二. 为什么要使用 selenium

在使用爬虫工具比如 requests 时候，使用 requests.get(url)命令获取网页内容，发现没有我们需要的内容，那是因为有些网页是前后端分离，需要浏览器执行 js 脚本通过 ajax 请求获取数据再渲染到页面，直接请求这个页面地址的话，得到的html上面是没有数据的。有些网站的网页是通过 js 生成的，并非原生的 HTML 代码，这其中并不包含 Ajax 请求。

如何解决这个问题呢？通常情况下可以分析 js 脚本，找到调用的接口，直接请求接口获取数据，但是这些接口有加密或者验证，请求接口是比较麻烦的。对于需要执行 js 脚本才能生成页面的网站是无法直接通过接口获取数据的，为了方便，我们可以直接使用 selenium + （浏览器驱动）firefox 模拟浏览器的行为，通过这个工具就可以执行 js 脚本获取到整个网页的完整数据。

selenium 是一个自动化测试工具

详细内容及使用可以查看官方文档：https://www.selenium.dev/documentation/

比如今日头条新闻网页的数据数据经过算法加密，无法直接请求接口，需要破解它的加密规则，网上有很多大佬写过如果抓取今日头条的数据，可以自行百度查找，总之有很多坑很麻烦，后面会介绍如何使用 selenium 抓取今日头条的数据。

大概知道了使用 selenium 可以获取任何网页中的数据，但是使用 selenium 存在的缺点如下：

效率较低

每一次请求相当于要打开一次浏览器，这个启动效率相对于直接调用接口来说是非常低的，通常需要几秒的时间。
资源浪费

selenium 模拟浏览器的行为，大量请求会极其消耗资源

三. 传统方式配置使用 selenium

1. 在 windows 中配置 selenium

这里主要演示使用 python + selenium 来爬取数据，所以下面只会介绍 python 的安装方式，其他安装方式可以查看官方文档。

安装 Selenum 库

使用下面的命令安装 selenium 库：

pip install selenium

安装 firefox 浏览器

firefox 下载地址：http://www.firefox.com.cn/download/

image-20210815101511993.png

根据需要下载对应环境的安装包，因为这里是在 windows 中配置，所以下载 windows 的。下载完成后，双击 .exe文件，点击下一步完成安装。

image-20210815101856842.png

安装 firefox 浏览器驱动

安装好浏览器之后，还需要安装浏览器的驱动才能是浏览器完成相应的操作。因为这里是使用的 firefox 浏览器，所以需要安装其对应的驱动 geckodriver 。

如果没有安装 geckodriver 这个驱动，当使用如下代码运行的时候：

import time
from selenium.webdriver import Firefox
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("https://www.toutiao.com/a6969138023774667264/")
time.sleep(2)
html = driver.page_source
print(html)
driver.quit()

会报出如下错误：

FileNotFoundError: [WinError 2] 系统找不到指定的文件。
Traceback (most recent call last):
    raise WebDriverException(
selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

关于 geckodriver 官方介绍如下：

geckodriver：使用 W3C WebDriver 兼容客户端与基于 Gecko 的浏览器交互的代理。

该程序提供了 WebDriver 协议描述的 HTTP API 来与 Gecko 浏览器进行通信，例如 Firefox。它通过充当本地端和远程端之间的代理将调用转换为 Marionette 远程协议。

geckodriver 下载地址：https://github.com/mozilla/geckodriver/releases

1. 请根据系统版本选择下载，如下图所示：

image-20210815102659371.png

2. 下载解压后将 getckodriver.exe 添加到 Path 环境变量中。

如果不想添加到环境变量中，还可以在创建 firefox 驱动实例的时候指定 geckodirver 的位置：
webdriver.Firefox(executable_path="E:/Downloads/geckodriver/geckodriver.exe")

**3. 添加 getckodriver 到环境变量中需要重启cmd或者idea **

其他浏览器的驱动下载地址

浏览器	支持的操作系统	维护者	下载	问题追踪
Chromium/Chrome	Windows/macOS/Linux	谷歌	下载	问题
火狐	Windows/macOS/Linux	Mozilla	下载	问题
Edge	Windows 10	微软	下载	问题
Internet Explorer	Windows	Selenium 项目组	下载	问题
Safari	macOS El Capitan 及更高版本	苹果	内置	问题
Opera	Windows/macOS/Linux	Opera	下载	问题

2. 在 linux 中配置 selenium

在 linux 中的配置和 windows 的配置步骤一样，下面简单介绍一下。

安装 Selenum 库

使用下面的命令安装 selenium 库：

pip install selenium

安装 firefox 浏览器

firefox 下载地址：http://www.firefox.com.cn/download/

使用如下命令下载 linux 版本的 firefox 浏览器：

wget https://download-ssl.firefox.com.cn/releases/firefox/esr/91.0/zh-CN/Firefox-latest-x86_64.tar.bz2

下载完成后使用下面的命令解压得到 Firefox-latest-x86_64.tar：

bunzip2 -d Firefox-latest-x86_64.tar.bz2

再次使用下面的命令解压：

tar -xvf Firefox-latest-x86_64.tar

安装 firefox 浏览器驱动

geckodriver 驱动下载地址：https://github.com/mozilla/geckodriver/releases

使用下面的命令下载 linux 系统的驱动：

wget https://github.com/mozilla/geckodriver/releases/download/v0.29.1/geckodriver-v0.29.1-linux64.tar.gz

解压后将 geckodriver 存放至 /usr/local/bin/ 路径下即可

tar -zxvf geckodriver-v0.29.1-linux64.tar.gz
cp geckodriver /usr/local/bin/

同理对于IE和Chrome浏览器，IEDriverServer，chromedriver也是相同的安装方法

四. python + selenium 获取今日头条数据

下面的代码是根据 url 获取今日头条新闻中的标题、发布时间、来源、正文内容、图片地址，详细说明查看代码注释：

from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC  # 和下面WebDriverWait一起用的
from selenium.webdriver.support.wait import WebDriverWait


def html_selenium_firefox(url):
    """
    根据 url 使用 selenium 获取网页源码
    :param url: url
    :return: 网页源码
    """
    opt = webdriver.FirefoxOptions()
    # 设置无界面
    opt.add_argument("--headless")
    # 禁用 gpu
    opt.add_argument('--disable-gpu')
    # 指定 firefox 的安装路径，如果配置了环境变量则不需指定
    firefox_binary = "C:\\Program Files (x86)\\Mozilla Firefox\\firefox.exe"
    # 指定 geckodirver 的安装路径，如果配置了环境变量则不需指定
    executable_path = "E:\\Downloads/geckodriver\\geckodriver.exe"
    driver = webdriver.Firefox(firefox_binary=firefox_binary, executable_path=executable_path, options=opt)
    # 发送请求
    driver.get(url)
    # 显式等待：显式地等待某个元素被加载
    wait = WebDriverWait(driver, 20)
    wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'article-content')))
    wait.until(EC.presence_of_element_located((By.TAG_NAME, 'span')))
    # 获取网页源码
    html = driver.page_source
    # 关闭浏览器释放资源
    driver.quit()
    return html


def get_news_content(url):
    html = html_selenium_firefox(url)
    tree = etree.HTML(html)
    title = tree.xpath('//div[@class="article-content"]/h1/text()')[0]
    # xpath 查找没有 class 的元素：span[not(@class)]
    pubtime = tree.xpath('//div[@class="article-meta mt-4"]/span[not(@class)]/text()')[0]
    # xpath 查找 class="name" 的元素：span[@class="name"]
    source = tree.xpath('//div[@class="article-meta mt-4"]/span[@class="name"]/a/text()')[0]
    # xpath 某个标签中的所有元素：//div
    content = tree.xpath('//article')[0]
    # 处理 content 乱码问题
    content = str(etree.tostring(content, encoding='utf-8', method='html'), 'utf-8')
    # 提取 content 中所有图片的地址
    images = etree.HTML(content).xpath('//img/@src')

    result = {
        "title": title,
        "pubtime": pubtime,
        "source": source,
        "content": content,
        "images": images,
    }
    return result


if __name__ == '__main__':
    url = "https://www.toutiao.com/a6969138023774667264/"
    result = get_news_content(url)
    print(result)

关于 selenium 和 xpath 的更多使用，可以查看官方文档，这里不再详细说明。

参考文章：

https://blog.csdn.net/rhx_qiuzhi/article/details/80296801

https://github.com/mozilla/geckodriver

https://www.selenium.dev/documentation

最后编辑于：2021.08.17 16:55:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,458评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,454评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,171评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,062评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,440评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,661评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,906评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,609评论 0赞 200
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,379评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,600评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,085评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,409评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,072评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,088评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,860评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,704评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,608评论 2赞 270

【爬虫】python+selenium+firefox使用与部署详解

一. 概述

二. 为什么要使用 selenium

三. 传统方式配置使用 selenium

1. 在 windows 中配置 selenium

安装 Selenum 库

安装 firefox 浏览器

安装 firefox 浏览器驱动

其他浏览器的驱动下载地址

2. 在 linux 中配置 selenium

安装 Selenum 库

安装 firefox 浏览器

安装 firefox 浏览器驱动

四. python + selenium 获取今日头条数据

推荐阅读更多精彩内容