Selenium 的基本使用 - 登录知乎并爬取信息

由于 JavaScript 动态渲染的页面不止 Ajax 这一种，有些网站获取数据并不包含Ajax请求，有些网站是对 Ajax 进行加密处理；为了解决这写问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就可见即可抓。

Python提供了许多模拟浏览器运行的库，如 Selenium、Splash、PyV8、Ghost 等；我们接下来以 Selenium为例，那么要使用的话我们就必须要做相应的安装，这里要注意一点的是由于我们操作的是谷歌浏览器，因此再使用这个库之前必须要先安装好谷歌浏览器以及操作浏览器的驱动执行文件。

一、操作前准备

安装谷歌浏览器
通过命令安装库：pip install selenium
下载谷歌浏览器驱动并配置环境变量 http://npm.taobao.org/mirrors/chromedriver/

二、基本操作

自动打开百度首页并休眠几秒钟后自动关闭

from selenium import webdriver
import time

driver = webdriver.Chrome() # 创建实例
driver.get("http://www.baidu.com") # 请求百度首页
time.sleep(6)   # 睡眠六秒
driver.quit()   # 退出浏览器

执行代码后即可看到如下效果：

image.png

接下来我们以一下网页操作为例子（代码中有详细的注释）,先看网页效果：

image.png

操作代码如下(注：操作的组件即属性的话在源码中查看)：

from selenium import webdriver
import time

# driver = webdriver.Chrome()   # 创建实例
# driver.get("http://www.baidu.com") # 请求百度首页
# time.sleep(6) # 睡眠六秒
# driver.quit() # 退出浏览器

# browser = webdriver.Chrome()
# browser.get("https://3416230579.github.io/page/index.html")

# 操作一
#elemt = browser.find_element_by_id("element_id") #根据 id 获取对象
# elemt = browser.find_element_by_name("element_id") #根据 name 获取对象

# print(elemt.tag_name) #返回标签名
# print(elemt.text) #返回标签的值

# elemt.send_keys("哈哈哈")#给标签输入值


# 操作二
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# print(elemt.tag_name) #返回标签名
# print(elemt.text) #返回标签的值
# elemt.click()#点击


# 操作三
# 利用 css选择器 获取 class='highlight' 标签对象并自动填值
# elemt = browser.find_element_by_css_selector(".highlight")
# elemt.send_keys("啦啦啦")

# # 利用 xpath 获取 id='xpathname' 标签对象并自动填值
# elemt = browser.find_element_by_xpath(r'//*[@id="xpathname"]')
# elemt.send_keys("我的 xpath")


# 操作四
# 获取跳转后页面的源码
# time.sleep(2)
# elemt = browser.find_element_by_link_text("find_element_by_link_text")
# elemt.click()
# browser.switch_to_window(browser.window_handles[1])
# print(browser.page_source)


# 操作五
# 操作弹出框
# time.sleep(2)
# elem = browser.find_element_by_tag_name("button")
# elem.click()

# time.sleep(2)
# browser.switch_to_alert().accept()  # 切换到弹出框操作


# 操作六
# 跳转和回退操作
# time.sleep(2)
# elem = browser.find_element_by_link_text("forward_back")
# elem.click()  # 点击跳转

# time.sleep(1)
# browser.back()  # 点击回退  

# time.sleep(2)
# browser.forward()  # 调到上一次点击
# time.sleep(1)
# browser.back()  # 回退


# 操作七
# Cookies 的操作
# browser = webdriver.Chrome()
# browser.get("https://www.baidu.com")
# print(browser.get_cookies()) # 输出全部的 cookie 的信息
# 添加一个 cookie 
# browser.add_cookie({"name":"luchangyin", "domian":"www.baidu.com","value":"肥牛冲天"})
# print(browser.get_cookies())
# browser.delete_all_cookies()  # 全部删除
# print(browser.get_cookies())


# 操作八
# 自动打开百度并根据关键字搜索相关的内容
from selenium.webdriver.common.keys import Keys

browser = webdriver.Chrome()
browser.get("https://www.baidu.com")
elem = browser.find_element_by_id("kw")
elem.send_keys("python爬虫")  # 输入
time.sleep(2)  # 休眠
elem.send_keys(Keys.RETURN)  # 回车


time.sleep(3)
browser.quit() # 关闭

三、实战 - 登录知乎并爬取信息

1）先看观察登录界面的标签规律：

image.png

2）导入我们所需要的所有包：

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException

3)根据效果图编写登录代码：

# 声明浏览器对象
browser = webdriver.Chrome()
browser.get("https://www.zhihu.com/signin")

def login_zhihu(browser):
    try:
        #获取登录用户名
        elem = browser.find_element_by_name("username")
        elem.clear()  # 清空
        elem.send_keys("用户名")  # 自动填值
        elem.send_keys(Keys.RETURN)#回车

        time.sleep(3)

        #获取登录密码
        elem = browser.find_element_by_name("password")
        elem.clear()
        elem.send_keys("密码")
        elem.send_keys(Keys.RETURN)#回车

        time.sleep(2)

        print("开始登陆...")
        #Button SignFlow-submitButton Button--primary Button--blue
        elem = browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue")
        #elem = browser.find_element_by_xpath(r'//button[@class="Button SignFlow-submitButton Button--primary Button--blue"]')
        elem.click()

        print("开始休眠...")
        #显示等待   选择“首页”选项
        element = WebDriverWait(browser, 15).until(EC.title_contains(u'首页'))
        print("已选择...")

    except TimeoutException:
        print("Time Out")
    except NoSuchElementException:
        print("No Element")

观察登陆后的页面：

image.png
获取代码如下:

# url 去重
urls = set()

def get_information(browser):
    print("开始获取信息。。。")
    elems = browser.find_elements_by_css_selector(".ContentItem-title")
    for elem in elems:
        link_elem = elem.find_element_by_tag_name("a")
        if link_elem.text in urls:
            pass
        else:
            print(link_elem.text)  # 标题
            print(link_elem.get_attribute("href"))  # 链接
            urls.add(link_elem.get_attribute("href"))

6）将进度条自动下拉到最底部实现 js 的加载：

# 滚动加载
def scroll_load(browser):
    #利用 execute_script() 方法将进度条下拉到最底部
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    browser.implicitly_wait(2)  # 隐式等待

7）编写主函数并调用：

# 主主函数
def main():
    login_zhihu(browser)  # 登录函数
    for i in range(3):  #滚动三次
        get_information(browser)  # 获取标题与链接
        scroll_load(browser)  # 滚动
        time.sleep(1)  # 休眠


# 函数入口调用
if __name__ == '__main__':
    main()

    input("按任意键退出-> ")
    browser.quit()

运行结果如下：

image.png

8）当使用有界面爬取少量页面信息的方式还好，但是爬取很多页面的话那可就不好了-太多弹出窗口页面，值得注意的是： 从 Chrome 59 开始已经开始支持 Headless 模式，即无界面模式，这样爬取的时候就无需弹出浏览器界面了，接下来我们简单的去使用以下：

chrome_options = webdriver.ChromeOptions()  # 获取 ChromeOptions 对象
chrome_options.add_argument('--headless')  # 添加 headless 参数
browser = webdriver.Chrome(chrome_options=chrome_options)  # 初始化 Chrome 对象
browser.get(r"http://www.baidu.com/")
# 截屏
browser.get_screenshot_as_file("C:\\Users\\Administrator\\Desktop\\aaa\\daima\\lcy.jpg")
html = browser.page_source  # 这里是源码，接下来就可以使用 正则 或者 xpath 表达式解析了
print("成功提取源码-> ", html)

执行程序之后输出源码的同时在制定的地址中可以看到截取的图片，效果如下：

image.png

经过这次实战，我相信同学们对 Selenium 有一定的了解了，接下来不妨去爬取一下 "腾讯视屏的评论" 练练手吧！嘿嘿，加油哦！

最后编辑于：2018.06.17 20:11:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

Selenium 的基本使用 - 登录知乎并爬取信息

一、操作前准备

二、基本操作

三、实战 - 登录知乎并爬取信息

推荐阅读更多精彩内容