allitebooks书本信息爬取

一. allitebooks网站链接:http://www.allitebooks.com/

二. 具体流程

  1. allitebooks的网页以翻页的形式展现下一页的书籍信息,通过对链接的比较,发现url的规律:"http://www.allitebooks.com/page/{}/".format(index),其中index表示页码,可以根据这个规则决定爬取多个网页的数据;

  2. 根据url去请求网页数据,并返回指定编码‘utf-8’的网页数据,用户下一步的网页数据的解析;

  3. 对网页数据进行解析,本文用xpath和beautifulsoup的方法都实现了,获取的信息有书名、作者、书详情链接、简介,保存到一个list中,用于后续的数据保存;


    网页解析
  4. 将解析完成的数据保存到csv中。

  5. 代码如下:

# -*- coding: utf-8 -*-

import requests
from lxml import etree
import csv
from bs4 import BeautifulSoup
import time

class BookSpider(object):
    def __init__(self):
        # 初始化数据,请求的url,headers和保存最终结果的result变量
        # 页面是翻页加载数据的,翻页的链接规则是www.allitebooks.com/page/n/  ,其中n表示第n页的数据
        self.url = "http://www.allitebooks.com/page/{}/"
        self.headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
        # 需要爬取的信息有书名book_name,作者author,书的详情链接url和书的简介summary
        self.result = [['book_name', 'author', 'url', 'summary']]

    # 获取需要请求的url,返回一个List的url去请求相关页面的数据
    def get_url_list(self):
        url_list = []
        for index in range(1,8):
            url_list.append((self.url).format(index))
        return url_list

    # 根据给到的url去请求相关页面的数据
    def get_data(self, url):
        response = requests.get(url=url, headers=self.headers)
        return response.content.decode('utf-8')

    # 使用xpath对请求的数据进行解析
    def parse_data_xpath(self, data):
        xpath_data = etree.HTML(data)
        # 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
        articles = xpath_data.xpath('//div[@class="entry-body"]')
        for article in articles:
            article_list = []
            # 获取书名
            book_name = article.xpath('.//h2/a/text()')[0]
            # 获取作者
            author = article.xpath('.//h5[@class="entry-author"]/a/text()')[0]
            # 获取书的详情链接
            url = article.xpath('.//h2/a/@href')[0]
            # 获取书的简介
            summary = article.xpath('./div[@class="entry-summary"]/p/text()')[0]
            # 组合成一个list,添加到成员变量result中,用于最后的csv保存
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)

    # 使用BeautifulSoup对请求的数据进行解析
    def parse_data_bs4(self, data):
        bs4_data = BeautifulSoup(data, 'lxml')
        # 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
        articles = bs4_data.select('.entry-body')
        for article in articles:
            article_list=[]
            book_name = article.select('.entry-title a')[0].get_text()
            author = article.select('.entry-author a')[0].get_text()
            url = article.select('.entry-title a')[0].get('href')
            summary = article.select('.entry-summary p')[0].get_text()
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)
        print(len(self.result))

    # 使用csv的方式保存result中的数据
    def save_data(self):
        # 需要指定encoding='utf-8',不然会有编码报错(windows专属哈哈)
        # 因为是使用的python3版本,所以需要newline='',不指定的话保存的csv中,每行后面都会有个空行
        book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
        writer = csv.writer(book_fp)
        writer.writerows(self.result)

        book_fp.close()
        
    # 执行数据爬取和保存的操作:获取需要爬取的网页的链接-->根据链接获取网页数据-->对网页数据进行解析-->保存解析后的数据
    def run(self):
        # 获取需要爬去数据的url
        url_list = self.get_url_list()
        for url in url_list:
            # 获取网页数据
            data = self.get_data(url)
            # 对网页数据进行解析,可以使用xpath的parse_data_xpath()或者BeautifulSoup的parse_data_bs4进行解析,获取相关数据
            self.parse_data_bs4(data)
            # 休眠1秒
            time.sleep(1)
        # 保存爬去的数据
        self.save_data()

BookSpider().run()

结果:


实验结果

三.遇到的问题

  1. 保存的csv文件中多了一行空行


    保存的csv文件中多了一行空行

在windows这种使用\r\n的系统里,不用newline=‘’的话,会自动在行尾多添加个\r,导致多出一个空行,即行尾为\r\r\n
参考链接:https://blog.csdn.net/pfm685757/article/details/47806469

解决方法:在打开的文件流中添加newline='',如:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

  1. 保存数据到csv时遇到UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 444: illegal multibyte sequence的报错

在window平台,文件的默认编码是gbk, 此时如果写入的字符串的编码是utf-8,则会引发编码报错
参考链接:http://www.itdaan.com/blog/2018/04/19/cef6ddb3809354ac175c64c228fe51fb.html

解决方法:指定编码格式encoding='utf-8'的情况下打开写入流:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

  1. summary的文本数据过长,通过Excel 打开csv的时候,数据显示在一个单元格上
    数据显示在一个单元格上

    参考链接:https://blog.csdn.net/caolaosanahnu/article/details/7351776
    解决方法:目前来看应该是excel打开csv时会有的格式的问题,暂时不是很清楚为什么会出现这个问题,但是将csv文件用记事本的方式打开之后,另存为时选择utf-8的编码格式,再打开另存为的文件,是可以看到整齐的数据的。

代码链接:https://github.com/zhuyecao/kaikeba/tree/master/kaikeba/allitebook

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,444评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,867评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,157评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,312评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,673评论 3 289
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,802评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,010评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,743评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,470评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,696评论 2 250
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,187评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,538评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,188评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,127评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,902评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,889评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,741评论 2 274

推荐阅读更多精彩内容

  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,171评论 4 16
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,620评论 0 10
  • 2018年6月14号 星期四 晴 昨天在家休息了一天,却感觉很累。休息比上班还累,这几年似乎休...
    华春秋阅读 2,238评论 0 4
  • 无意翻出一张老照片:我坐在床上,背后挂着没有完成的水粉静物。 很多年没有画画了,我贴近了去看那张我的第一张水粉画,...
    且听风眠阅读 1,110评论 7 17
  • 在我的印象里 杭州是一个多面孔的一个城市 晴天的杭州很精致,下雨的杭州很性感,而下雪的杭州则很清丽。所以,人一旦在...
    陈龙longc阅读 675评论 10 8