优质广告供应商

广告是为了更好地支持作者创作

在CentOS7上使用chrome(selenium)

大家在用Python做爬虫的时候,会经常用到phantomjs。
但是我们一般都是用chrome/firefox查看效果,再转成phantomjs。
一方面这样比较费时间,另一方面phantomjs不太稳定,而且官方已经停止维护了。
所以赶紧投身大Google的怀抱吧!


如果用 yum install google-chrome -y 不能装上的话就尝试下载安装

下载chrome
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

可能会遇到网路问题,你可以先下载到本地再上传

安装chrome
yum install ./google-chrome-stable_current_x86_64.rpm
配置chromedriver

注意chromedriver的版本,要与你安装的chrome版本对应上,这里的版本已经不是最新的。
版本列表:http://chromedriver.chromium.org/downloads

下载chromedriver_linux64.zip

wget https://chromedriver.storage.googleapis.com/2.38/chromedriver_linux64.zip

解压chromedriver_linux64.zip

unzip chromedriver_linux64.zip

为chromedriver授权

chmod 755 chromedriver
Python代码测试
from selenium import webdriver

def spider(url='http://bing.com'):
    option = webdriver.ChromeOptions()
    option.add_argument('--no-sandbox')  
    option.add_argument('--headless')  
    # 注意path
    driver = webdriver.Chrome(executable_path='../chromedriver', chrome_options=option)
    driver.get(url)
    print(driver.page_source)
spider()

这个命令禁止沙箱模式,否则肯能会报错遇到chrome异常。

option.add_argument('--no-sandbox') 

优质广告供应商

广告是为了更好地支持作者创作

推荐阅读更多精彩内容

  • Install Google Chrome 几个月前发布的Chrome 59 beta推出了headless模式。...
    Shuangquan阅读 6,648评论 1 5
  • Selenium的Webdriver爬取动态网页效果虽然不错,但效率方面并不如人意。最近一直研究如何提高动态页面爬...
    Rabin_xie阅读 8,235评论 10 43
  • 优质广告供应商

    广告是为了更好地支持作者创作

  • 说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能。等见识了requests库...
    Rabin_xie阅读 51,296评论 34 100
  • 我发现自己在“运动”这件事上,绝对是惰性大于毅力的。 好在,由于自己对运动的益处实在是烂熟于心,深入骨髓,所以无论...
    毛歌阅读 531评论 0 0
  • 这两天负面情绪爆棚,好像事情总是无法往好的方向发展,一点也不顺利,烦人的事情太多了,今天就来简书倒垃圾吧。 ...
    亲爱的小鱼老师阅读 308评论 0 4
  • 最近我的前半生很火,收视率不断看涨,走到哪都能听到剧情和评价。我是在朋友圈看到的只言片语,大概也能猜到个七八层的内...
    微微漫生活阅读 281评论 0 2
  • 优质广告供应商

    广告是为了更好地支持作者创作

  • 已经是许久没来深圳了, 或许是因为距离远。 我与深圳就像异地恋的“情侣”, 每次的就别重逢都会给对方带来惊喜。 依...
    5ave阅读 243评论 0 1