Python新浪微博爬虫-1 爬取评论、用户名、用户ID

这篇文章是Python爬虫的第一篇，目标是新浪微博的评论，本篇只实现了抓取评论者的id或个性域名，评论，用户名，详细资料的爬取也许会在以后继续发布。

Ubuntu 17.04 还用了一台腾讯的云主机，同样是Unix系统。
Chromium 浏览器，抓包很方便。
Python 3.5 另外还需要安装两个 Moudle:
- bs4
- requests
- pymysql
数据库使用MySql 5.7
IDE使用VIM，关于VIM的配置可以去Google搜索，也可以使用我的一个 vimrc，码字还算比较流畅。https://github.com/matianhe/vimConf

环境准备好之后就要确定爬取的内容

如图，打开新浪微博官网，最好是移动端网页，页面简单，容易分析，确定爬取评论页的所有用户名和评论。首先要知道网页的结构，HTML基础可以到W3School学习。
在这里用谷歌浏览器按F12选择Elements块查看网站源代码。可以发现每一个评论内容都是由一个class为c，id为C_[0-9]的div包裹。帐号ID就是a标签的href属性的内容，用户名是帐号a标签的text内容，评论则是class为ctt的span标签的内容。

b.png

写代码

Tips:感觉学框架看官方文档学习最有效率，一定要看!
requests官方文档
 bs4官方文档

ubuntu@~:vim comment.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
from time import sleep
import queue
import re
import requests
import random  # noqa
import tools  # noqa

如果有第三方模块导入失败可能是没有安装好模块！可以用pip安装，tools是我自己写的一个功能模块，在文件里可以找到。

eg:
    sudo apt install python3-pip
    pip3 install bs4

第一步就是要找到想要爬的网址，然后精简到最短长度。page是目标页，之所以设置成变量是想要循环遍历所有评论页。

url = 'https://weibo.cn/comment/FcnGmhbjL?uid=1537790411&rl=0&page=%d' % (page)

有了url之后，用requests模块向网页发送请求，它有很多参数，具体可以看官方文档。请求成功之后，他会返回你的网页信息，可以用.content，.text得到网页内容。

req = requests.get(url, timeout=5, headers=self.header, cookies=self.cookie)

cookies : 你可以Google一下专业术语，可以把他看作你的帐号密码，有了这一串字符就相当于用帐号密码登录。因为新浪微博查看评论需要登录，所以必须模拟登录的状态，下面会讲到怎么样获取cookie。
header : 请求头，用来伪装成浏览器，相当于告诉请求的网站，我是××浏览器，我上一个网页是什么，我的接受格式，编码，等等。主要是为了不被发现是爬虫，其实这样做作用不大，还是会被封IP，主要还是放慢速度。

self.cookie ={‘cookies': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'}
self.header = {'User-Agent': 'Mozilla/5.0 (X11; Linux i686)\
               AppleWebKit/537.36 (KHTML, like Gecko) TGUbuntu\
               Chromium/59.0.3071109 Chrome/59.0.3071.109\
               Safari/537.36',
               'referers': 'https://weibo.cn/comment/FcnGmhbjL?\
               uid=1537790411&rl=0',
               'accept': 'text/html,application/xhtml+xml,application/\
               xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
               'accept-encoding': 'gzip, deflate, br',
               'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4',
               'Connection': 'keep-alive',
               'Host': 'weibo.cn',
               'Upgrade-Insecure-Requests': '1',
               }

有了网页对象之后就用BeautifulSoup来整理，创建的一个对象，把请求回来的数据文件转换成xml格式，就可以很简单的通过html标签来找数据。

soup = BeautifulSoup(req.content, 'lxml')

根据一开始分析的内容包裹情况，用find_all()方法来匹配所有class为c，id以C_开头的div标签，每个标签就相当与一组帐号、用户名、评论，也就是一开始我们分析的数据存在的位置。之后再用for循环遍历，把每一组的信息分别提取出来,存入MySql数据库,中文表情可能无法存入，请参考 MySql数据库更改默认字符集。

tags = soup.find_all('div', class_='c', id=re.compile(r'C_.+'))
for tag in tags:
    self.user_domain = re.sub(r'.*/', '', tag.a['href'])
    self.user_name = tag.a.text
    self.user_comment = tag.find_all('span', 'ctt')[0].text
    tools.add_inc((self.user_domain, self.user_name, self.user_comment))

add_inc()方法在tools模块里，功能就是连接数据库，插入数据。我调试的时候先把数据打印到屏幕上最后才写到数据库，建数据库命令也tools里。

def add_inc(data):
    with pymysql.connect(host='localhost', user='xxx',
                         passwd='xxx', db='xxx',
                         charset='utf8mb4') as cur:
        try:
            sql = ('insert into luhan_inc(user_domain, user_name,\
                user_comment) values (%s, %s, %s)')
            cur.execute(sql, data)
        except Exception as e:
            print(e, 'error')


def c_table_luhan_inc():
    sql = 'create table luhan_inc(user_domain varchar(16),\
        user_name varchar(32), user_comment varchar(512))'
    with pymysql.connect(host='localhost', user='×××××',
                         passwd='×××××', db='××××') as cur:
        try:
            cur.execute(sql)
        except Exception as e:
            print(e)

sleep()每爬一个网页随机休息一下！！！不然会被封ip的！得等20分钟左右解封。况且从道德方面，速度太快会给的网站带来很大的负担。

获取 cookie 和 header

打开移动端的登录页面进行抓包，如果显示已经登录需要先退出登录。按F12调出开发者模式后，选择Network块，所有请求信息都能在这里找到。如果已经存在很多文件，就点红点旁边的清除，然后把preserve log打开（不会清除记录留下我们要找的文件）。到下图的状态之后，输入帐号密码登录。登录网页
点击登录之后会出现很多请求文件，我们要找到存有帐号密码的文件。一般为Doc，XHR类型，自己可以多抓几次，熟练之后就会很容易发现。

带有cookie的文件
打开m.weibo.cn这个文件，会出现详细信息，把需要的header和cookie复制出来就可以用了。

cookie和header

总结

这篇文章只是粗略的讲了一下过程，还有更换代理IP做多进程没有写，感觉写太多会有点乱，而且速度太快很容易封IP，单机跑速度也还可以，做“小数据”采集够用了，新手学习也还不算难，有问题可以随时评论。完整的代码在下面贴了出来，如果不会用git的话，推荐一个网站去学习廖雪峰的git教程。

补充

密码不安全，创建一个密码模块passwd.py。
传入固定cookie之后代理IP不起作用，可忽略。

GitHub开源地址：https://github.com/matianhe/crawler。

最后编辑于：2018.01.23 10:43:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

Python新浪微博爬虫-1 爬取评论、用户名、用户ID

Python新浪微博爬虫-1 爬取评论、用户名、用户ID

目录

OK，介绍一下开发环境

环境准备好之后就要确定爬取的内容

写代码

获取 cookie 和 header

总结

补充

推荐阅读更多精彩内容