【小白学爬虫连载(6)】--Selenium库详解

欢迎大家关注公众号【哈希大数据】
Selenium库是Python的自动化测试工具,它支持多种浏览器包括Chrome、Mozilla Firefox、PhantomJS等。在爬虫中主要解决因为利用JavaScript渲染操作不能利用Requests库获取网页内容的问题。利用JavaScript渲染的网站有很多典型的如淘宝、今日头条、一点资讯、快递100等。
Selenium安装与测试
对于Windows平台:首先介绍一种简单的安装包的方法,打开cmd,执行pip install selenium。如果第一种方法出现如timeout等问题,我们还可以采用手动方法安装,步骤如下:
1、登陆该网站(https://www.lfd.uci.edu/~gohlke/pythonlibs/)下载你所需要的第三包的whl文件(用Ctrl+F命令搜索你想安装的第三方包),建议存储在Python安装目录中的\Lib\site-packages目录下。
2、下载完成后打开命令行,输入pip install 文件绝对路径 ,然后点击回车就OK啦。
完成Selenium库的安装后,我们需要下载一些浏览器驱动器,这里建议大家使用Chrome浏览器,为此我们需要在电脑上下载一个chromedriver,下载chromedriver时需要注意的问题是与电脑上的chrome浏览器版本要对应。大家可以按下面这个连接中给定的映射关系进行下载:http://blog.csdn.net/huilan_same/article/details/51896672,感谢huilan_same的分享。chromedriver的下载地址:http://npm.taobao.org/mirrors/chromedriver/
下载的chromedriver需要配置进path环境变量,也可以用我下面的语句加入executable_path参数,后面为 chromedriver的绝对路径,chromedriver_win32为存放chromedriver.exe的文件夹。下面对Selenium进行简单的测试:

browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get("http://www.baidu.com")
print(browser.page_source)
browser.close() 

查找元素

1.查找单个元素

selenium查找元素的方法有很多:

find_element_by_name
find_element_by_id
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

下面举一个例子:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get("http://www.taobao.com")
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
browser.close()

例子中通过三种不同的方式去获取响应的元素,第一种是通过id的方式,第二个中是CSS选择器,第三种是xpath选择器,结果都是相同的

2.查找多个元素

查找多元素与查找单个元素的区别不大,在函数名上多加了一个s例如:find_elements_by_name。查找大哥元素返回的是符合查找条件的第一个标签,查找多个元素返回的是符合条件的所有标签。

3.获取元素属性

在查找到相应元素后可以利用get_attribute(属性名称)函数获取属性值

举一个简单的例子如下:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('https://www.taobao.com/')
input_str = driver.find_element_by_id('q')
print(input_str.get_attribute('aria-label'))

得到的结果是:"请输入搜索文字"

4.获取文本值

与获取元素属性类似,不过更简单,直接在查找到元素后利用其text方法

5.获取标签位置及大小

与获取文本值一样,获取位置的方法为location,获取大小的方法为size


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('https://www.taobao.com/')
input_str = driver.find_element_by_id('q')
print(input_str.location)
print(input_str.size)

模拟操作

1.元素交互操作

元素交互操作是指咱们经常用到的如查询操作,登陆操作等

下面举一个查询操作的例子:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('http://www.kuaidi100.com/')
# print('cookies:', driver.get_cookies())
browser.find_element_by_name("postid").clear() # 清空输入框内容
browser.find_element_by_name("postid").send_keys('3346535929281') # 输入订单号
browser.find_element_by_id("query").click() # 点击搜索按钮

该例是在快递100中查询一个订单的物流信息。

2.执行JavaScript操作

这是一个非常有用的方法,这里就可以直接调用js方法来实现一些操作,下面的例子是打开快递100通过js翻到页面底部


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.get('http://www.kuaidi100.com/')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

切换Frame

frame标签是比较特殊的,定位该标签内部的元素时必须先切换到对应的frame内,通过下面的例子演示这里常用的是switch_to.frame()和switch_to.parent_frame():

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementExceptionbrowser = webdriver.Chrome()
browser.get('http://bj.96weixin.com/')
browser.switch_to.frame('ueditor_1')
source = browser.find_element_by_class_name('view')
print(source)
try: 
logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')except NoSuchElementException: print('NO LOGO')browser.switch_to.parent_frame()logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')
print(logo)print(logo.get_attribute('src'))

很多时候网页中要获取的内容显示其在一个框框里面,大家就要查看其是不是在各个框架内,避免出错。

等待

网页中很多内容是通过Ajax加载,需要一定时间才能加载出来,但selenium默认的是打开网页后变开始定位元素,这样容易出现找不到元素这样的问题,不过selenium提供了两种等待元素出现的方式:显示等待和隐式等待

1.显示等待

指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回。


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)

上述的例子中的条件:EC.presence_of_element_located()是确认元素是否已经出现了EC.element_to_be_clickable()是确认元素是否是可点击的

常用的判断条件:

title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located 元素可见,传入定位元组
visibility_of 可见,传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_ 元素可选择,传元素对象
element_located_to_be_selected 元素可选择,传入定位元组
element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
alert_is_present 是否出现Alert

2.隐式等待

到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行。


from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

选项卡管理

通过执行window.open()实现新开选项卡
通过browser.window_handles函数可以获得选项卡列表
通过browser.window_handles[n]就可以操作第n个选项卡
通过browser.close()关闭当前选项卡

from selenium import webdriver
browser = webdriver.Chrome()browser.get('https://www.baidu.com')
browser.execute_script('window.open()')# 打开一个新的选项卡print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])#切换到第二个选项卡,注意这里0为第一个
browser.get('https://www.taobao.com')time.sleep(1)browser.close()#关闭当前选项卡
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

小结
本文介绍了selenium库的安装和测试方法,本文主要介绍selenium驱动chrome浏览器的相关操作,其他浏览器基本一样只是需要添加对应的浏览器驱动,后面主要介绍了如何查找元素、获取属性值、模拟人的操作、操作frame内的元素、等待、选项卡管理。更多的内容请到:
http://selenium-python.readthedocs.io/api.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容

  • Selenium是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在...
    FifiZhuang阅读 7,426评论 5 71
  • 洞见SELENIUM自动化测试 写在最前面:目前自动化测试并不属于新鲜的事物,或者说自动化测试的各种方法论已经层出...
    厲铆兄阅读 6,663评论 3 47
  • 第一次去海边的时候天气很不好,没有看到日出,稍有遗憾,这次来到海边,一定要看到海边日出。 早上五点起床去海边,一个...
    马晓迎阅读 488评论 0 0
  • 动物题材的影片对于铲屎官们的杀伤力都好大,估计养过宠物的人都会希望自己的萌宠起死回生吧。据说有的场次哭声一片,据说...
    火珑果阅读 2,343评论 0 5
  • 《西游记》是我国古代的四大名著之一,里面讲述的唐僧师徒四人去西天取经的故事大家耳熟能详。有那么一天,我坐着发呆时突...
    静默心谷阅读 387评论 0 1