python爬虫抓取app列表的图标

python爬虫抓取app列表的图标


爬虫简介

所谓的爬虫简单来说,就是通过不断的变化http请求的url,向服务器进行请求,从而获得服务器返回的相关数据,在这些数据中提取对自己有用的信息。

爬虫的步骤

  • 构造url。根据自己想要抓取的信息,构造出相应的url。
  • 请求url。根据上面构造的url,向服务器发起请求。(在python中可以用urllib、request库等)
  • 提取数据。向服务器发起请求后,服务器会返回相关的数据(如:html、json、xml),在这些数据中提取对自己有用的信息(可以用正则表达式、BeautifulSoup、json、lxml等)。
  • 保存数据。已特定的格式(csv文件)保存上面提取的数据,以便于后面进行数据分析。

例子

使用爬虫抓取app列表的图标,如微信、QQ、今日头条等。

  • 构造url
    打开豌豆荚首页,在搜索框中输入微信,进行搜索。豌豆荚服务器返回下图的页面,有搜索到app列表的信息和图标。
weixin.png

在进行搜索时,用Wireshark进行抓包,可以看到在搜索微信时,对应的http请求为:http://www.wandoujia.com/search?key=%E5%BE%AE%E4%BF%A1&source=index
QQ的请求为:
http://www.wandoujia.com/search?key=QQ&source=index
今日头条的请求为:
http://www.wandoujia.com/search?key=%E4%BB%8A%E6%97%A5%E5%A4%B4%E6%9D%A1&source=index

  • 从上面的3个不同的app的http请求,我们可以发现,只是搜索的key值有所不同,比如微信的key为%E5%BE%AE%E4%BF%A1,QQ的key为QQ,今日头条的key为%E5%BE%AE%E4%BF%A1。这些值对应字符的utf-8编码 + url编码。也是说微信的utf-8为E5 BE AE E4 BF A1,格式化为url编码就是:%E5%BE%AE%E4%BF%A1。
  • 所以对于不同的app应用要构造出不同请求的url,我们只需要改变上面http请求的key值,再向豌豆荚的服务器发送请求即可。

请求url

在python中可以使用urllib、request库等。

提取数据

发送http请求后,豌豆荚服务器会返回搜索的app列表。可以看到是一个html文档。用Chrome浏览器,查看返回的html文档,定位到相关的信息。如下图,可以看到,微信的图标的链接地址。这就是我们需要提取的数据。

img_link.png

在python中我们可以使用正则表达式来提取图标的链接地址,或者对于html可以使用BeautifulSoup来提取。

保存数据

上面提取的是图标的链接地址,我们可以再次用这个链接地址发起http请求,就可以得到相应图标的数据,然后把数据保存到磁盘中即可。


代码如下:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""从豌豆荚应用市场抓取app列表的图标"""

from urllib.parse import quote
from urllib import request
from functools import wraps
import re


__author__ = 'heql'


def url_decorate(func):

    @wraps(func)
    def wrapper(*args, **kwargs):
        print(*args)
        if args:
            return func(*args)
    return wrapper


@url_decorate
def request_url(url):
    """请求url"""
    cnt = 3
    for i in range(cnt):
        try:
            with request.urlopen(url, timeout=20) as f:
                return f.read()
        except Exception as e:
            if(i < cnt - 1):
                print('request again')
            else:
                print('except:', e)


def save_icon(file_name, data):
    with open(file_name, 'wb') as f:
        f.write(data)                


def get_icon_links(data, app_name, compare=None):
    """提取图标的链接"""
    items = re.findall(r'(<div class="icon-wrap">(?:.|\n)*?</h2>)', data)

    for item in items:
        icon_link = re.search(r'<img src="(.*?)"', item).group(1)
        icon_app_name = re.search(r'class="name">(.*?)</a>', item).group(1)

        result = True if compare is None else compare(icon_app_name, app_name)
        if result:
            yield icon_app_name, icon_link
   

def read_app_list(file_name):
    """读取app列表"""
    with open(file_name, encoding='utf-8') as f:
        return [line.strip() for line in f if line.strip()]


def main():
    app_name_list = read_app_list('app_list.txt')
    url  = 'http://www.wandoujia.com/search?key={0}&source=index'

    for app_name in app_name_list:
        data = request_url(url.format(quote(app_name, encoding='utf-8')))
        if not data:
            continue

        for index, (icon_app_name, icon_link) in enumerate(get_icon_links(data.decode('utf-8'), app_name, lambda left, right: left == right)):
            icon_data = request_url(icon_link)
            if not icon_data:
                continue

            file_name = '{0}_{1}.png'.format(icon_app_name, index)
            save_icon(file_name, icon_data)             
    

if __name__ == '__main__':
    main()

代码分析:

read_app_list函数: 从文件中读出app列表的名称,每一行对应一个app名称。

request_url函数: 使用urllib发送http请求。如果请求时发生异常(如:网络超时、url请求错误等),则再次发送请求,如果同一个url超过三次请求有误,则返回None。它有一个装饰器url_decorate,用于输出发送请求时的url。

get_icon_links函数: 用于提取服务器返回的数据。使用正则表达式findall匹配所有符合以<div class="icon-wrap">开始,以/h2>结束的选项。findall会返回一个list。然后对每个选项用整个表达式提取图标的链接和图标的名称。compare 是一个回调函数,当为None时表示要提取所有的图标信息,代码传入一个lambda表达式,lambda left, right: left==right表示只有提取的图标名称和搜索的图标的名称相同时,才返回其对应的图标链接。

save_icon函数: 写入图标的数据到指定的文件中。图标保存的名称是以名字_下标形式保存的,因为有可能会出现两个以上名字相同的数据,比如说:搜索可可英语。会有两个相同的app名称的应用。


使用BeautifulSoup提取html数据

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。

参考: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

使用BeautifulSoup后能让代码更加简洁,对于上面的程序,我们只需修改get_icon_links即可。代码如下:

# 提取图标的链接
def get_icon_links(data, app_name, compare=None):
    soup = BeautifulSoup(data, 'lxml')
    for tag in soup.find_all('img'):
        icon_link = tag['src']
        icon_app_name = tag['alt']

        result = True if compare is None else compare(icon_app_name, app_name)
        if result:
            yield icon_app_name, icon_link
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 148,637评论 1 318
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 63,443评论 1 266
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 99,164评论 0 218
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,075评论 0 188
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,080评论 1 266
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,365评论 1 184
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 30,901评论 2 283
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,649评论 0 176
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,122评论 0 223
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,734评论 2 225
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,093评论 1 236
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,548评论 2 222
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,028评论 3 216
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,765评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,291评论 0 178
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,162评论 2 239
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,293评论 2 242

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,036评论 18 139
  • WebSocket-Swift Starscream的使用 WebSocket 是 HTML5 一种新的协议。它实...
    香橙柚子阅读 22,782评论 8 183
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,560评论 6 28
  • 遇见 在这个深秋,在这条路上,我遇见了你一一简书, 已是深秋,只有凉意一丝丝, 我取名为一一深秋好个凉, 愿我们的...
    深秋好个凉阅读 363评论 0 1
  • 今天继续利用空闲的时间学习敬天爱人,在之前的学习中,一直没有对敬天爱人的概念进行系统的归纳总结。随着学习深度的加...
    林贤阅读 222评论 0 1