第一个python爬虫

树莓派

上个月月末，入手了第一台树莓派。树莓派是什么？没有决定购买之前，只见过同事在玩，觉得很神奇。研究后才知道这是一个微型电脑。

具体的就不在这里说了。到手之后折腾了两天，在树莓派3b上搭建一套ubuntu系统。嗯，这也是我第一次搭建和使用ubuntu。

做什么呢

树莓派到手了，用来做什么呢？

一开始打算弄一弄深度学习，尝试了一下tensorflow和caffe，都失败了，装不上。这套专为树莓派使用的Ubuntu貌似有不少问题。

那就做点简单的吧，比如爬虫。

之前做过的爬虫是java版本的webmagic，感觉不好用。这次打算尝试一下python。反正国庆假期多，就趁机会把python也学习一下。

准备工作

python：

教程：http://www.runoob.com/python3/python3-tutorial.html

了解基本的语法，以及linux下python的使用，包括版本切换、执行python文件等。

Beautiful Soup：

教程：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

了解使用它获取html内容的相关方法。

MySQL-python

python连接mysql：http://www.cnblogs.com/fnng/p/3565912.html

爬什么内容

在简书搜了一下，发现一个可以快速参考的文章：
http://www.jianshu.com/p/be891e7e96e2

写得比较详细，就决定依样画葫芦爬简书吧。

代码实现

表结构：

/*
SQLyog Ultimate v12.4.3 (64 bit)
MySQL - 5.7.13-log : Database - scrapy_jianshu
*********************************************************************
*/

/*!40101 SET NAMES utf8 */;

/*!40101 SET SQL_MODE=''*/;

/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
CREATE DATABASE /*!32312 IF NOT EXISTS*/`scrapy_jianshu` /*!40100 DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci */;

USE `scrapy_jianshu`;

/*Table structure for table `jianshu_article` */

DROP TABLE IF EXISTS `jianshu_article`;

CREATE TABLE `jianshu_article` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `article_type` varchar(30) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '文章分类',
  `article_id` varchar(30) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '简书上的文章id',
  `title` varchar(150) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `author` varchar(30) COLLATE utf8mb4_unicode_ci DEFAULT NULL,
  `author_id` varchar(30) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '作者id',
  `abstract` text COLLATE utf8mb4_unicode_ci COMMENT '摘要',
  `content` mediumtext COLLATE utf8mb4_unicode_ci,
  `like_count` int(6) DEFAULT NULL COMMENT '点赞数',
  `reward_count` int(4) DEFAULT NULL COMMENT '打赏数',
  `comment_count` int(6) DEFAULT NULL COMMENT '评论数',
  `link` varchar(100) COLLATE utf8mb4_unicode_ci DEFAULT NULL COMMENT '文章链接',
  `read_count` int(11) DEFAULT NULL COMMENT '阅读量',
  `create_time` datetime DEFAULT NULL COMMENT '发表时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `article_id` (`article_id`)
) ENGINE=InnoDB AUTO_INCREMENT=29782 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

python源码：

#!/usr/bin/env python
#coding=utf-8

import requests
from bs4 import BeautifulSoup
import pymysql
from datetime import datetime

# 打开数据库连接
db = pymysql.connect("192.168.0.102","root","root","scrapy_jianshu",charset="utf8")

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# MySQLdb正常情况下会尝试将所有的内容转为latin1字符集处理，所以设置编码如下
cursor.execute('SET NAMES utf8;') 
cursor.execute('SET CHARACTER SET utf8;')
cursor.execute('SET character_set_connection=utf8;')


# 推荐分类
recommendations='http://www.jianshu.com/recommendations/collections?page=%d&order_by=recommend'


# 简书分类
base_urls=[]
        

# 抓取函数
def scrapy_artilce(url):
    add_url=0
    n=1000#每个专题抓取最受欢迎的前1000篇文章
    while(n>0):
        try:
            add_url += 1
            n = n-1
            response=requests.request('get',url% add_url)
            page=response.content
            soup=BeautifulSoup(page,'html.parser')
            type="'"+soup.select("a.name")[0].get_text() #文章分类
            article_list = [article for article in soup.select("div.content")]
            for article in article_list:
                author=article.select("a.blue-link")[0].get_text()#文章作者
                author_id=article.select("a.blue-link")[0].get('href')#作者id
                title=article.select("a.title")[0].get_text()#文章标题
                article_id=article.select("a.title")[0].get('href')#文章id
                abstract=article.select("p.abstract")[0].get_text()#文章摘要
                link="http://www.jianshu.com"+article_id#文章链接

                # 抓取文章正文
                response1=requests.request('get',link)
                page1=response1.content
                soup1=BeautifulSoup(page1,'html.parser')

                content=''
                if len(soup1.select('.show-content')):
                    content=soup1.select('.show-content')[0].get_text()#文章内容

                read=0 #文章阅读量
                if len(article.select(".ic-list-read")):
                        read=article.select(".ic-list-read")[0].find_parent().get_text() #文章阅读量
                read=int(read)

                comment=0 #文章评论量
                if len(article.select(".ic-list-comments")):
                        comment=article.select(".ic-list-comments")[0].find_parent().get_text() #文章评论量
                comment=int(comment)

                like=0 #文章点赞量
                if len(article.select(".ic-list-like")):
                        like=article.select(".ic-list-like")[0].find_parent().get_text() #文章点赞量
                like=int(like)

                reward=0 #文章赞赏数量
                if len(article.select(".ic-list-money")):
                        reward=article.select(".ic-list-money")[0].find_parent().get_text() #文章赞赏数量
                reward=int(reward)

                create_time=article.select(".time")[0].get('data-shared-at')#发表时间
                create_time=create_time.replace('T',' ')
                create_time=create_time.replace('+08:00','')
                create_time=datetime.strptime(create_time,"%Y-%m-%d %H:%M:%S")

                sql="insert into jianshu_article (title,article_id,article_type,author,author_id,abstract,like_count,reward_count,comment_count,link,read_count,content,create_time) \
                values ('%s','%s',%s','%s','%s','%s','%d','%d','%d','%s','%d','%s','%s')" % \
                (title,article_id,type,author,author_id,abstract,like,reward,comment,link,read,content,create_time)
                
                try:
                    cursor.execute(sql)
                    db.commit()
                except Exception as e:
                    print('错误sql：'+sql)
                    print(e)
                    db.rollback()
        except Exception as e:
            print(e)

# 开始抓取
add_url=1
while(add_url<50):#推荐专题没有超过50个
    try:
        response=requests.request('get',recommendations% add_url)
        page=response.content
        soup=BeautifulSoup(page,'html.parser')
        tyle_list=[_type for _type in soup.select("div.collection-wrap")]
        
        for _type in tyle_list:
            _type_id=_type.select(".avatar-collection")[0].find_parent().get('href')
            type_link='http://www.jianshu.com'+_type_id+'?order_by=top&page=%d'
            base_urls.append(type_link)
        
        add_url +=1
    except Exception as e:
            print(e)

for _type in base_urls:
    scrapy_artilce(_type)

# 关闭数据库连接
db.close()

总结

这个简单的爬虫在树莓派上跑了将近两天，按照各个专题内文章的点赞数排序，已经抓取了7w+文章。

树莓派的好处是便宜，200多块钱就可以搭建好的一台linux服务器，而且耗电少，持续运行也不怎么发热。

后来又想爬心声论坛的内容，于是就又写了一个简单点的：

#!/usr/bin/env python
#coding=utf-8

import requests
from bs4 import BeautifulSoup
import pymysql
from datetime import datetime
import re

# 打开数据库连接
db = pymysql.connect("192.168.0.102","root","root","scrapy_jianshu",charset="utf8")

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# MySQLdb正常情况下会尝试将所有的内容转为latin1字符集处理，所以设置编码如下
cursor.execute('SET NAMES utf8;') 
cursor.execute('SET CHARACTER SET utf8;')
cursor.execute('SET character_set_connection=utf8;')


# 按点击最多排序
xinsheng_base_url='http://xinsheng.huawei.com/cn/index.php?app=forum&mod=List&act=index&class=461&order=viewcount&type=&sign=&special=&p=%d'
        

# 抓取函数
def scrapy_artilce(url):
    add_url=0
    while(True):
        try:
            add_url += 1
            response=requests.request('get',url% add_url)
            page=response.content
            soup=BeautifulSoup(page,'html.parser')
            type="'"+'' #文章分类
            article_list = [article for article in soup.select("div.font_box")]
            for article in article_list:
                author=article.select(".pro")[0].select("a")[0].get_text()#文章作者
                if len(article.select(".space_rz_blue")):
                    author=article.select(".space_rz_blue")[0].find_parent().get_text()#文章作者
                    author=author.replace(' ','')

                author_id=''#作者id

                title=article.select("p")[0].select('font')[0].select('a')[0].get_text()#文章标题
                
                article_id=''#文章id
                abstract=''#文章摘要

                
                link=article.select("p")[0].select('font')[0].select('a')[0].get('href')#文章链接

                # 抓取文章正文
                response1=requests.request('get',link)
                page1=response1.content
                soup1=BeautifulSoup(page1,'html.parser')

                content=''
                if len(soup1.select('.bbs_info_right_text')):
                    content=soup1.select('.bbs_info_right_text')[0].get_text()#文章内容
                    if len(content) == 0:
                        content=soup1.select('.bbs_info_right_text')[1].get_text()

                read=0 #文章阅读量
                comment=0 #文章评论量
                if len(article.select('.pro_width')):
                        read=article.select('.pro_width')[0].get_text() #文章阅读量
                
                if len(article.select('.iconReply')):
                        comment=article.select('.iconReply')[0].find_parent().get_text() #文章评论量

                read=int(read)
                comment=int(comment)

                like=0 #文章点赞量
                reward=0 #文章赞赏数量
                
                create_time='1970-01-01'
                if len(article.select('.pro')):
                    create_time=article.select('.pro')[0].get_text()#发表时间
                
                create_time= re.findall(r"\d{4}-\d{2}-\d{2}",create_time)[0]
                create_time=datetime.strptime(create_time,"%Y-%m-%d")


                sql="insert into xinsheng_article (title,article_id,article_type,author,author_id,abstract,like_count,reward_count,comment_count,link,read_count,content,create_time) \
                values ('%s','%s',%s','%s','%s','%s','%d','%d','%d','%s','%d','%s','%s')" % \
                (title,article_id,type,author,author_id,abstract,like,reward,comment,link,read,content,create_time)
                
                #print(sql)
                
                try:
                    cursor.execute(sql)
                    db.commit()
                except Exception as e:
                    print('错误sql：'+sql)
                    print(e)
                    db.rollback()
                
        except Exception as e:
            print(e)

# 开始抓取
scrapy_artilce(xinsheng_base_url)

# 关闭数据库连接
db.close()

到目前为止，也已经从心声论坛上抓取到了4w+文章。后续可以在这些数据的基础之上做一些查询和分析了。

最后编辑于：2017.12.10 23:43:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269