Python - 爬虫简书推荐作者

本人小白 - 正在学习python突然看到爬虫很有意思就过来试试看

robot协议在每个网站的跟域名加上/robots.txt即可访问文档例如 www.baidu.com/robots.txt

引入包

import requests
from bs4 import BeautifulSoup

发送请求

header = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:36.0) Gecko/20100101 Firefox/36.0'}
response = requests.get(url, headers=header)
html = response.text

解析html页面结构找到放置数据的标签
查看html结构之后可以看到作者整个数据在div class="wrap" div中

authors_info = soup.find_all('div',class_='wrap')

结果是这样的，结构很明了，就展示了一条数据方便查看

[<div class="wrap">
<a href="/users/b3b2c03354f3" target="_blank">
<img alt="180" class="avatar" src="//upload.jianshu.io/users/upload_avatars/3343569/93161bfa-dda9-49ee-88e1-a85ec4227232.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/180/h/180"/>
<h4 class="name">
        吴晓布

      </h4>
<p class="description">顺丰速运集团前高管，现某创业公司合伙人兼CT...</p>
</a>
<div class="follow-button" props-data-following="false" props-data-user-id="3343569"></div>
<hr/>
<div class="meta">最近更新</div>
<div class="recent-update">
<a class="new" href="/p/b0a42bc9be31" target="_blank">知识结构 | 如何构建你的知识结构</a>
<a class="new" href="/p/6bfcdc3d0bb3" target="_blank">致读者：没有过不去的坎，只有过不完的坎</a>
<a class="new" href="/p/4ee2e11e454e" target="_blank">摄影实战 | 如何用无人机拍出精彩风光大片的技巧清单</a>
</div>
</div>]

他们的个人页面在<a href="/users/b3b2c03354f3" target="_blank">里，所以得获取个人页面的路径加上
https://www.jianshu.com+a标签的内容即可
注意这里是数组，所以不能直接取得a标签 循环一下即可

['/users/b3b2c03354f3', '/users/e0ef486d9b90', '/users/c5580cc1c3f4', '/users/5f27d4962af5', '/users/ffc565d738a3', '/users/b91cc2d507d0', '/users/55b597320c4e', '/users/7406f22f461e', '/users/4062aaeba322', '/users/08e6960f7ed9', '/users/00e4497354ac', '/users/b67d47b0505a', '/users/a67ad639eb06', '/users/0044a6881d5e', '/users/98935ac50373', '/users/9607c7976e1c', '/users/86b81ed8e35c', '/users/92eb338437ee', '/users/0c5379fd193e',
'/users/1446a350e58a', '/users/7591e24c8494', '/users/13cba2dc6b23', '/users/9d73eac9d201', '/users/b52ff888fd17']

下一步需要做的就是把每一项加入https://www.jianshu.com前缀循环时加入即可

['https://www.jianshu.com/users/b3b2c03354f3', 'https://www.jianshu.com/users/e0ef486d9b90', 
'https://www.jianshu.com/users/c5580cc1c3f4', 'https://www.jianshu.com/users/5f27d4962af5', 
'https://www.jianshu.com/users/ffc565d738a3', 'https://www.jianshu.com/users/b91cc2d507d0',
 'https://www.jianshu.com/users/55b597320c4e', 'https://www.jianshu.com/users/7406f22f461e', 
'https://www.jianshu.com/users/4062aaeba322', 'https://www.jianshu.com/users/08e6960f7ed9', 
'https://www.jianshu.com/users/00e4497354ac', 'https://www.jianshu.com/users/b67d47b0505a', 
'https://www.jianshu.com/users/a67ad639eb06', 'https://www.jianshu.com/users/0044a6881d5e',
 'https://www.jianshu.com/users/98935ac50373', 'https://www.jianshu.com/users/9607c7976e1c',
 'https://www.jianshu.com/users/86b81ed8e35c', 'https://www.jianshu.com/users/92eb338437ee', 
'https://www.jianshu.com/users/0c5379fd193e', 'https://www.jianshu.com/users/1446a350e58a', 
'https://www.jianshu.com/users/7591e24c8494', 'https://www.jianshu.com/users/13cba2dc6b23', 
'https://www.jianshu.com/users/9d73eac9d201', 'https://www.jianshu.com/users/b52ff888fd17']

下一步就是分析作者页面看页面结构

以我的举个例子.png

可以清楚的看到页面结构也就是说这里才是我们要解析的结构

结构清晰了.png

这里就要用到很骚气的BeautifulSoup

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
这是文档地址安装引入就不说了哦真的好强大

需要的数字都在p标签里
作者姓名在a class="name" 标签里 so 剩下的就很简单了

soup = BeautifulSoup(html, 'html.parser')         //html解析 官网文档有详细介绍
author_info = soup.find_all('div',class_='info')[0]
author_info_name = soup.find_all('a',class_='name')[0]

获取div class="info"

<div class="info">
    <ul>
        <li>
            <div class="meta-block">
                <a href="/users/b3b2c03354f3/following">
                    <p>93</p>
                    关注
                    <i class="iconfont ic-arrow"></i>
                </a>
            </div>
        </li>
        <li>
            <div class="meta-block">
                <a href="/users/b3b2c03354f3/followers">
                    <p>92526</p>
                    粉丝
                    <i class="iconfont ic-arrow"></i>
                </a>
            </div>
        </li>
        <li>
            <div class="meta-block">
                <a href="/u/b3b2c03354f3">
                    <p>172</p>
                    文章
                    <i class="iconfont ic-arrow"></i>
                </a>
            </div>
        </li>
        <li>
            <div class="meta-block">
                <p>507641</p>
                <div>字数</div>
            </div>
        </li>
        <li>
            <div class="meta-block">
                <p>10092</p>
                <div>收获喜欢</div>
            </div>
        </li>
    </ul>
</div>

然后获取所有info里的数字

author_info_numbers = author_info.find_all('p')

获取到作者名还有所有数据存储的地方

吴晓布
[93, 92523, 172, 507641, 10092]
寻麦
[62, 110857, 126, 252938, 4365]
简书大学堂
[42, 221019, 293, 494557, 13052]
文字怪人
[103, 74240, 33, 134591, 8386]
格列柯南
[170, 85561, 309, 570692, 12707]
冰千里
[8, 89311, 142, 354906, 4234]
简书版权
[46, 286461, 232, 400041, 31260]
雨落荒原
[151, 97188, 77, 285370, 3418]
念远怀人
[38, 78876, 190, 514656, 4898]
须僧
[22, 60215, 36, 125810, 875]
经年鲤
[90, 23148, 87, 388741, 1915]
叶凝惋潇
[9, 32936, 64, 241658, 174]
小托夫
[47, 23470, 38, 270325, 673]
儿童性教育老师胡佳威
[14, 28964, 48, 112042, 272]
赫连伯伯
[22, 30528, 53, 105873, 516]
旸晓昆
[86, 10838, 14, 77134, 247]
乔汉童
[47, 26982, 130, 462652, 1086]
道长是名思维贩子
[28, 70155, 46, 156259, 39115]
狼医生
[43, 21590, 100, 384217, 896]
aloho
[28, 49276, 70, 609433, 495]
陈慕妤
[24, 61319, 117, 419132, 53350]
汪波_偶遇科学
[74, 61021, 57, 241599, 1077]
孙一杯
[14, 7518, 16, 99887, 208]
简宝玉
[17, 193588, 118, 80783, 14640]

稍作处理

[['吴晓布', [93, 92600, 172, 507641, 10094]],
 ['寻麦', [62, 110935, 126, 252938, 4365]],
 ['简书大学堂', [42, 221094, 293, 494557, 13053]], 
['文字怪人', [103, 74318, 33, 134591, 8386]],
 ['格列柯南', [170, 85636, 309, 570692, 12708]],
 ['冰千里', [8, 89384, 142, 354906, 4235]], 
['简书版权', [46, 286538, 232, 400041, 31263]], 
['雨落荒原', [151, 97262, 77, 285370, 3420]],
 ['念远怀人', [38, 78951, 190, 514656, 4902]],
 ['须僧', [22, 60289, 36, 125810, 875]], 
['经年鲤', [90, 23152, 87, 388741, 1916]],
 ['叶凝惋潇', [9, 32940, 64, 241658, 174]], 
['小托夫', [47, 23474, 38, 270325, 673]],
 ['儿童性教育老师胡佳威', [14, 28969, 48, 112042, 272]], 
['赫连伯伯', [22, 30532, 53, 105873, 516]], 
['旸晓昆', [86, 10842, 14, 77134, 247]], 
['乔汉童', [47, 26985, 130, 462652, 1086]],
['道长是名思维贩子', [28, 70158, 46, 156259, 39115]],
 ['狼医生', [43, 21593, 100, 384217, 896]], 
['aloho', [28, 49279, 70, 609433, 495]],
 ['陈慕妤', [24, 61322, 117, 419132, 53352]],
 ['汪波_偶遇科学', [74, 61024, 57, 241599, 1077]],
['孙一杯', [14, 7520, 16, 99887, 208]], 
['简宝玉', [17, 193596, 118, 80783, 14640]]]

写到这里已经2018-6-28 21:52:44，下班很久了，但是很开心 python小白露出诡异傲娇的笑容
然后在给这些"死数据" 添加点内容

-----------------------------------
 作者姓名: 吴晓布
 获得: 93 关注
 作者拥有: 92621 个分数
 共写了: 172 篇
 共写了: 507641 字
 收获: 10094 个喜欢
-----------------------------------
 作者姓名: 寻麦
 获得: 62 关注
 作者拥有: 110957 个分数
 共写了: 126 篇
 共写了: 252938 字
 收获: 4365 个喜欢
-----------------------------------
 作者姓名: 简书大学堂
 获得: 42 关注
 作者拥有: 221114 个分数
 共写了: 293 篇
 共写了: 494557 字
 收获: 13054 个喜欢
-----------------------------------
 作者姓名: 文字怪人
 获得: 103 关注
 作者拥有: 74340 个分数
 共写了: 33 篇
 共写了: 134591 字
 收获: 8386 个喜欢
-----------------------------------
 作者姓名: 格列柯南
 获得: 170 关注
 作者拥有: 85658 个分数
 共写了: 309 篇
 共写了: 570692 字
 收获: 12708 个喜欢
-----------------------------------
 作者姓名: 冰千里
 获得: 8 关注
 作者拥有: 89404 个分数
 共写了: 142 篇
 共写了: 354906 字
 收获: 4235 个喜欢
-----------------------------------
 作者姓名: 简书版权
 获得: 46 关注
 作者拥有: 286559 个分数
 共写了: 232 篇
 共写了: 400041 字
 收获: 31263 个喜欢
-----------------------------------
 作者姓名: 雨落荒原
 获得: 151 关注
 作者拥有: 97282 个分数
 共写了: 77 篇
 共写了: 285370 字
 收获: 3420 个喜欢
-----------------------------------
 作者姓名: 念远怀人
 获得: 38 关注
 作者拥有: 78972 个分数
 共写了: 190 篇
 共写了: 514656 字
 收获: 4902 个喜欢
-----------------------------------
 作者姓名: 须僧
 获得: 22 关注
 作者拥有: 60309 个分数
 共写了: 36 篇
 共写了: 125810 字
 收获: 875 个喜欢
-----------------------------------
 作者姓名: 经年鲤
 获得: 90 关注
 作者拥有: 23153 个分数
 共写了: 87 篇
 共写了: 388741 字
 收获: 1916 个喜欢
-----------------------------------
 作者姓名: 叶凝惋潇
 获得: 9 关注
 作者拥有: 32940 个分数
 共写了: 64 篇
 共写了: 241658 字
 收获: 174 个喜欢
-----------------------------------
 作者姓名: 小托夫
 获得: 47 关注
 作者拥有: 23473 个分数
 共写了: 38 篇
 共写了: 270325 字
 收获: 673 个喜欢
-----------------------------------
 作者姓名: 儿童性教育老师胡佳威
 获得: 14 关注
 作者拥有: 28969 个分数
 共写了: 48 篇
 共写了: 112042 字
 收获: 272 个喜欢
-----------------------------------
 作者姓名: 赫连伯伯
 获得: 22 关注
 作者拥有: 30532 个分数
 共写了: 53 篇
 共写了: 105873 字
 收获: 516 个喜欢
-----------------------------------
 作者姓名: 旸晓昆
 获得: 86 关注
 作者拥有: 10841 个分数
 共写了: 14 篇
 共写了: 77134 字
 收获: 247 个喜欢
-----------------------------------
 作者姓名: 乔汉童
 获得: 47 关注
 作者拥有: 26984 个分数
 共写了: 130 篇
 共写了: 462652 字
 收获: 1086 个喜欢
-----------------------------------
 作者姓名: 道长是名思维贩子
 获得: 28 关注
 作者拥有: 70159 个分数
 共写了: 46 篇
 共写了: 156259 字
 收获: 39115 个喜欢
-----------------------------------
 作者姓名: 狼医生
 获得: 43 关注
 作者拥有: 21593 个分数
 共写了: 100 篇
 共写了: 384217 字
 收获: 896 个喜欢
-----------------------------------
 作者姓名: aloho
 获得: 28 关注
 作者拥有: 49280 个分数
 共写了: 70 篇
 共写了: 609433 字
 收获: 495 个喜欢
-----------------------------------
 作者姓名: 陈慕妤
 获得: 24 关注
 作者拥有: 61321 个分数
 共写了: 117 篇
 共写了: 419132 字
 收获: 53352 个喜欢
-----------------------------------
 作者姓名: 汪波_偶遇科学
 获得: 74 关注
 作者拥有: 61024 个分数
 共写了: 57 篇
 共写了: 241599 字
 收获: 1077 个喜欢
-----------------------------------
 作者姓名: 孙一杯
 获得: 14 关注
 作者拥有: 7521 个分数
 共写了: 16 篇
 共写了: 99887 字
 收获: 208 个喜欢
-----------------------------------
 作者姓名: 简宝玉
 获得: 17 关注
 作者拥有: 193597 个分数
 共写了: 118 篇
 共写了: 80783 字
 收获: 14640 个喜欢

2018-6-28 22:12:20

wo zhong yu xie chu lai le !! 坚持就是胜利

完结撒花

遇到但是没用的包
- Numpy
- Counter
- Collections
  这些我也不知道是啥明天再看吧
遇到的问题
- 就是数据结构，python中有太多list[] set() tuple dict{}
- 基本语法薄弱，才会导致用这么久花了我大概3个多将近4个小时期间又写了个处理log日志的脚本多看多练就ok了

看到的同学可以一起学习一起交流也希望有个大神带一带交流交流意见

回家

最后编辑于：2018.06.29 12:53:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259

Python - 爬虫简书推荐作者

这里就要用到很骚气的BeautifulSoup

wo zhong yu xie chu lai le !! 坚持就是胜利

完结 撒花

推荐阅读更多精彩内容

完结撒花