allitebooks书本信息爬取

一. allitebooks网站链接：http://www.allitebooks.com/

二. 具体流程

allitebooks的网页以翻页的形式展现下一页的书籍信息，通过对链接的比较，发现url的规律："http://www.allitebooks.com/page/{}/".format(index)，其中index表示页码，可以根据这个规则决定爬取多个网页的数据；
根据url去请求网页数据，并返回指定编码‘utf-8’的网页数据，用户下一步的网页数据的解析；
对网页数据进行解析，本文用xpath和beautifulsoup的方法都实现了，获取的信息有书名、作者、书详情链接、简介，保存到一个list中，用于后续的数据保存；

网页解析
将解析完成的数据保存到csv中。
代码如下：

# -*- coding: utf-8 -*-

import requests
from lxml import etree
import csv
from bs4 import BeautifulSoup
import time

class BookSpider(object):
    def __init__(self):
        # 初始化数据，请求的url,headers和保存最终结果的result变量
        # 页面是翻页加载数据的，翻页的链接规则是www.allitebooks.com/page/n/  ,其中n表示第n页的数据
        self.url = "http://www.allitebooks.com/page/{}/"
        self.headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
        # 需要爬取的信息有书名book_name，作者author，书的详情链接url和书的简介summary
        self.result = [['book_name', 'author', 'url', 'summary']]

    # 获取需要请求的url，返回一个List的url去请求相关页面的数据
    def get_url_list(self):
        url_list = []
        for index in range(1,8):
            url_list.append((self.url).format(index))
        return url_list

    # 根据给到的url去请求相关页面的数据
    def get_data(self, url):
        response = requests.get(url=url, headers=self.headers)
        return response.content.decode('utf-8')

    # 使用xpath对请求的数据进行解析
    def parse_data_xpath(self, data):
        xpath_data = etree.HTML(data)
        # 获取包含了书名、作者、链接、简介的模块列表，对列表进行遍历，获取相关的信息
        articles = xpath_data.xpath('//div[@class="entry-body"]')
        for article in articles:
            article_list = []
            # 获取书名
            book_name = article.xpath('.//h2/a/text()')[0]
            # 获取作者
            author = article.xpath('.//h5[@class="entry-author"]/a/text()')[0]
            # 获取书的详情链接
            url = article.xpath('.//h2/a/@href')[0]
            # 获取书的简介
            summary = article.xpath('./div[@class="entry-summary"]/p/text()')[0]
            # 组合成一个list，添加到成员变量result中，用于最后的csv保存
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)

    # 使用BeautifulSoup对请求的数据进行解析
    def parse_data_bs4(self, data):
        bs4_data = BeautifulSoup(data, 'lxml')
        # 获取包含了书名、作者、链接、简介的模块列表，对列表进行遍历，获取相关的信息
        articles = bs4_data.select('.entry-body')
        for article in articles:
            article_list=[]
            book_name = article.select('.entry-title a')[0].get_text()
            author = article.select('.entry-author a')[0].get_text()
            url = article.select('.entry-title a')[0].get('href')
            summary = article.select('.entry-summary p')[0].get_text()
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)
        print(len(self.result))

    # 使用csv的方式保存result中的数据
    def save_data(self):
        # 需要指定encoding='utf-8',不然会有编码报错(windows专属哈哈）
        # 因为是使用的python3版本，所以需要newline='',不指定的话保存的csv中，每行后面都会有个空行
        book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
        writer = csv.writer(book_fp)
        writer.writerows(self.result)

        book_fp.close()
        
    # 执行数据爬取和保存的操作：获取需要爬取的网页的链接-->根据链接获取网页数据-->对网页数据进行解析-->保存解析后的数据
    def run(self):
        # 获取需要爬去数据的url
        url_list = self.get_url_list()
        for url in url_list:
            # 获取网页数据
            data = self.get_data(url)
            # 对网页数据进行解析，可以使用xpath的parse_data_xpath()或者BeautifulSoup的parse_data_bs4进行解析，获取相关数据
            self.parse_data_bs4(data)
            # 休眠1秒
            time.sleep(1)
        # 保存爬去的数据
        self.save_data()

BookSpider().run()

结果：

实验结果

三.遇到的问题

保存的csv文件中多了一行空行

保存的csv文件中多了一行空行

在windows这种使用\r\n的系统里，不用newline=‘’的话，会自动在行尾多添加个\r，导致多出一个空行，即行尾为\r\r\n
参考链接：https://blog.csdn.net/pfm685757/article/details/47806469

解决方法：在打开的文件流中添加newline=''，如：book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

保存数据到csv时遇到UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 444: illegal multibyte sequence的报错

在window平台，文件的默认编码是gbk，此时如果写入的字符串的编码是utf-8，则会引发编码报错
参考链接：http://www.itdaan.com/blog/2018/04/19/cef6ddb3809354ac175c64c228fe51fb.html

解决方法：指定编码格式encoding='utf-8'的情况下打开写入流：book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

summary的文本数据过长，通过Excel 打开csv的时候，数据显示在一个单元格上

数据显示在一个单元格上

参考链接：https://blog.csdn.net/caolaosanahnu/article/details/7351776
解决方法：目前来看应该是excel打开csv时会有的格式的问题，暂时不是很清楚为什么会出现这个问题，但是将csv文件用记事本的方式打开之后，另存为时选择utf-8的编码格式，再打开另存为的文件，是可以看到整齐的数据的。

代码链接：https://github.com/zhuyecao/kaikeba/tree/master/kaikeba/allitebook

最后编辑于：2018.10.31 21:23:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,444评论 4赞 365
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,867评论 1赞 298
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,157评论 0赞 248
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,312评论 0赞 214
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,673评论 3赞 289
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,802评论 1赞 223
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,010评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,743评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,470评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,696评论 2赞 250
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,187评论 1赞 262
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,538评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,188评论 3赞 240
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,127评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,902评论 0赞 198
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,889评论 2赞 283
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,741评论 2赞 274

allitebooks书本信息爬取

推荐阅读更多精彩内容