Python爬虫系列（四）： Project 1:下厨房(Web端)

实战第一篇，以下厨房网页端为例，任务目标：

爬取下厨房网页端所有的菜品
创建基本的工具类，数据管理工具
将爬取的数据结构化保存到数据库中

以下是下厨房的首页：

屏幕快照 2017-07-01 下午12.09.13.png

从网页结构上分析，分类是个很好的爬取所有菜品的入口，点开菜谱分类：

屏幕快照 2017-07-01 下午12.12.28.png

点击其中一个分类：

屏幕快照 2017-07-01 下午12.13.45.png

到此，基本思路已经很清晰：

爬取所有的分类
通过分类进入菜品列表，爬取该分类下所有菜品

难点有两个:

分类页有个【展开全部】的action，如何得到一个大分类下的所有二级分类？
如何爬取一个二级分类下的所有页数据？

问题1

打开浏览器，查看分类页面的源码：

屏幕快照 2017-07-01 下午12.25.02.png

不难发现，点击『展开全部』后隐藏的数据都是存放在<div class='cates-list-all clearfix hidden'>下的，只要取该div下的数据，变可以得到全量的分类，其结构如下图：

image.png

到此问题1已解决

问题2

首先查看分页部分的源代码：

image.png

只要从每页中取出下一页的链接，依次爬取每一页的内容即可，知道下一页的链接为空时，及表示已是最后一页，该二级分类下的所有菜品都爬完了。

开始写代码

1. 创建project

scrapy startproject cook

文件结构

(env) ➜  cook tree
.
├── scrapy.cfg
└── cook
    ├── __init__.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

2 directories, 7 files

关于scrapy的基本内容这里不多做介绍，不熟悉的同学可以查阅本系列第二篇文章：Python爬虫系列（三）：python scrapy介绍和使用

2. 创建分类表结构

        command = (
            "CREATE TABLE IF NOT EXISTS {} ("
            "`id` INT(8) NOT NULL AUTO_INCREMENT,"
            "`name` CHAR(20) NOT NULL COMMENT '分类名称',"
            "`url` TEXT NOT NULL COMMENT '分类url',"
            "`category` CHAR(20) NOT NULL COMMENT '父级分类',"
            "`category_id` INT(8) NOT NULL COMMENT '分类id',"
            "`create_time` DATETIME NOT NULL,"
            "PRIMARY KEY(id),"
            "UNIQUE KEY `category_id` (`category_id`)"
            ") ENGINE=InnoDB".format(config.category_urls_table)
        )

        self.sql.create_table(command)

3. 解析部分

    def parse_all(self, response):
        if response.status == 200:
            file_name = '%s/category.html' % (self.dir_name)
            self.save_page(file_name, response.body)
            categorys = response.xpath("//div[@class='cates-list-all clearfix hidden']").extract()
            for category in categorys:
                sel_category = Selector(text = category)
                category_father = sel_category.xpath("//h4/text()").extract_first().strip()
                items = sel_category.xpath("//ul/li/a").extract()
                for item in items:
                    sel = Selector(text = item)
                    url = sel.xpath("//@href").extract_first()
                    name = sel.xpath("//text()").extract_first()
                    _id = re.compile('/category/(.*?)/').findall(url)[0]
                    dt = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                    msg = (None , name, url, category_father, _id, dt)
                    command = ("INSERT IGNORE INTO {} "
                                "(id, name, url, category, category_id, create_time)"
                                "VALUES(%s,%s,%s,%s,%s,%s)".format(config.category_urls_table)
                    )
                    self.sql.insert_data(command, msg)

根据问题1里面的描述，我们要从http://www.xiachufang.com/category/中找出所有的二级分类以及其连接，每个一级分类对应的数据都在<div class='cates-list-all clearfix hidden'>下，参考代码：
categorys = response.xpath("//div[@class='cates-list-all clearfix hidden']").extract()
接着我们将所有二级分类的名称，对应url取出存入数据中。

4.爬取菜品

先取出之前存储到数据控的所有分类：

        command = "SELECT * from {}".format(config.category_urls_table)
        data = self.sql.query(command)

解析部分：

    def parse_all(self, response):
        utils.log(response.url)
        if response.status == 200:
            file_name = '%s/category.html' % (self.dir_name)
            self.save_page(file_name, response.body)
            recipes = response.xpath("//div[@class='normal-recipe-list']/ul/li").extract()
            self.parse_recipes(recipes)
            nextPage = response.xpath("//div[@class='pager']/a[@class='next']/@href").extract_first()
            if nextPage:
                yield Request(
                    url = self.base_url + nextPage,
                    headers = self.header,
                    callback = self.parse_all,
                    errback = self.error_parse,
                )

    def parse_recipes(self, recipes):
        for recipe in recipes:
            sel = Selector(text = recipe)
            name = sel.xpath("//p[@class='name']/text()").extract_first().strip()
            url = sel.xpath("//a[1]/@href").extract_first()
            img = sel.xpath("//div[@class='cover pure-u']/img/@data-src").extract_first()
            item_id = re.compile("/recipe/(.*?)/").findall(url)[0]
            source = sel.xpath("//p[@class='ing ellipsis']/text()").extract_first().strip()
            score = sel.xpath("//p[@class='stats']/span/text()").extract_first().strip()
            dt = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            msg = (None, name, url, img, item_id, source, score, dt)
            command = ("INSERT IGNORE INTO {} "
                        "(id, name, url, img, item_id, source, score, create_time)"
                        "VALUES(%s,%s,%s,%s,%s,%s,%s,%s)".format(config.item_list_table)
            )
            self.sql.insert_data(command, msg)

通过分析源代码，先取出每一页的所有菜品信息部分：

recipes = response.xpath("//div[@class='normal-recipe-list']/ul/li").extract()

通过方法parse_recipes解析出该页所有的菜品信息，并存储。
同时取出『下一页』对应的url（nextPage）,如果nextPage不为空（还有下一页），则接着爬取下一页内容。

5.执行爬虫程序

依次执行以上的两个spider程序，下厨房所有的菜品就到手了，有兴趣的同学也可以接着爬取菜品的详情页内容。

屏幕快照 2017-07-01 下午1.05.23.png

屏幕快照 2017-07-01 下午1.05.31.png

源码地址：https://github.com/sam408130/xcf_crawler
交流学习qq:197329984

再次声明，本篇文章仅用于交流学习，请勿用于任何商业用途

接下来文章内容预告：

如果爬取京东app（https通信）数据
如何添加代理
scrapy的管理，部署

最后编辑于：2017.12.08 07:22:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268