Python aiohttp爬取必应背景图

Hello,大家好。上周末有事出去了,也没更新文章,所以这回就补一下文章,算是两周合为一篇吧【其实是有点懒】,国庆快乐哦!


页面分析

Bing的首页分析还算简单的,直接利用Chrome定位元素,然后再查找background图片链接。当然从分析中也能看出其实它也是动态修改的,实际上由JavaScript修改样式而来。

Bing首页

看到了里面的DOM节点名称为bgDiv,用这个名称去Source的标签页中搜索,得到如下结果

HTML源代码中bgDiv

既然如此,我们就采用正则表达式的形式进行图片链接的提取。

re.compile(r'g_img={(.?),.?};'),非贪婪模式匹配到第一个逗号,其实后面的就可以删除了,但是以防万一还是又匹配了一次。
正则表达式

代码书写

为了熟悉一下aiohttp,所以本次就尝试使用aiohttp来书写代码,比较简单。

pip install aiohttp, 先安装aiohttp库
pip install apscheduler,安装apscheduler,这个库用来定时触发任务,可以查看链接的文档,官方有例子比较不错。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
 @File       : bing_crawler.py
 @Time       : 2017/9/28 0028 20:52
 @Author     : Empty Chan
 @Contact    : chen19941018@gmail.com
 @Description:
"""
import re
import asyncio
import aiohttp
import click
import os
import time
from apscheduler.schedulers.asyncio import AsyncIOScheduler

BASE_URL = 'http://cn.bing.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
PAT = re.compile(r'g_img={(.*?),.*?};')
PATH = os.path.abspath('.')
TODAY = time.strftime('%Y-%m-%d', time.localtime(time.time()))  # 转换得到当前日期


@asyncio.coroutine
def run():
    click.echo('crawl %s bing picture....' % TODAY)
    yield from crawl()  # 传统3.x的协程语法糖,遇到yield from,则函数记住此位置,然后立即返回
    click.echo('crawl finished')


async def crawl():  # 3.5引入的协程语法糖, async等同于@asyncio.coroutine, await 等同于yield from
    async with aiohttp.ClientSession(headers=headers) as session:  # 声明session
        async with session.get(BASE_URL) as resp:
            text = await resp.text()  # 立即返回,等待下次loop来获取,如果await后等待到返回值,则继续往下运行,否则返回继续等待下次loop
            click.echo(resp.status)
            if resp.status == 200:
                pat = PAT.findall(text)
                if len(pat) > 0:
                    img = pat[0].replace('"', '').replace('url:', '').strip()
                    url = BASE_URL + img
                    click.echo(url)
                    click.echo(PATH)
        if not os.path.exists('.\\Bing'):
            os.mkdir('.\\Bing')
        async with session.get(url) as res:
            with open('.\\Bing\\%s.jpg' % TODAY, 'wb') as f:
                while True:
                    chunk = await res.content.read(512)
                    if not chunk:
                        break
                    f.write(chunk)
                click.echo('save picture ok!')


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    scheduler = AsyncIOScheduler({'event_loop': loop})  # 声明AsyncIOScheduler异步定时任务,传入event_loop
    job = scheduler.add_job(run, 'cron', second='*/5')  # 通过add_job将run方法添加到定时任务中,5sec跑一次
    try:
        scheduler.start()
    except (KeyboardInterrupt, SystemExit):
        scheduler.shutdown()
    print('Press Ctrl+{0} to exit'.format('Break' if os.name == 'nt' else 'C'))

    # Execution will block here until Ctrl+C (Ctrl+Break on Windows) is pressed.
    try:
        loop.run_forever()  # 保证事件loop运行
    except (KeyboardInterrupt, SystemExit):
        pass

这周的文字不多,也不放什么GitHub了,大家直接运行就行,哈哈。国庆快乐!!!!欢迎喜欢我的文章的多多支持,小生希望能够写出更多好玩的东西!!
为伟大的祖国打call!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 170,569评论 25 707
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,100评论 18 139
  • 美丽的童年,充满了欢声笑语,参与孩子的童年,和孩子一起成长,为美丽的童年,留下灿烂的回忆。每一刻,每一秒,你...
    快乐的Alina阅读 288评论 1 4
  • 心痛次数越来越多,是一种病! 每个人的渴求与追寻是不一样的,望能理解四个字成为了所有人的心里诉求!希望事情按照自己...
    马姗姗阅读 202评论 0 0