Python测试题-爬取糗百文本和简书首页

第一题:求100以内的素数

素数,所谓素数是指除了1和它本身以外,不能被任何整数整除的数,例如17就是素数,因为它不能被2~16的任一整数整除。
根据题意,代码如下:

# 求100以内的素数
n = 100
for i in range(0, n + 1):
    if i >= 2:
        #根据题意,只要被小于自己(不包含1和自己)的数整除的就不能打印,那也就是说循环到自己还没有被整除即可打印
        for k in range(2, i + 1):
            if k == i:
                print i,
            elif i % k == 0:
                break
            else:
                continue

运行结果

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97

Process finished with exit code 0

第二题:爬虫练习
2.1)糗百 http://www.qiushibaike.com/text/
包括:作者,性别,年龄,段子内容,好笑数,评论数
代码如下:

import urllib2
from bs4 import BeautifulSoup


domain = 'http://www.qiushibaike.com/text/page/'

def getQiushi(pn):
    for i in range(1, pn+1):
        request = urllib2.Request(domain + str(i))
        request.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
        }
        html = urllib2.urlopen(request).read()
        #print html
        soup = BeautifulSoup(html,'html.parser')
        result = soup.select('.article')
        for child  in result:
            #print child
            #child = str(child).replace('<br>','')
            #soup = BeautifulSoup(child,'html.parser')
            author =  child.select('h2')[0].string
            #print author
            if u'匿名用户' in author:
                age = 'None'
                sex = 'None'
            else:
                age = child.select('div .articleGender')[0].string
                sex_string = child.select('div .articleGender')[0].attrs['class'][1]
                if sex_string == 'manIcon':
                    sex = '男'
                else:
                    sex = '女'
            content_list = child.select('.content')[0].get_text()
            haoxiao = child.select('span > .number')[0].string
            comment = child.select('a > .number')[0].string
            print author,age,sex,content_list,haoxiao,comment


if __name__ == '__main__':
    getQiushi(13)

运行结果:

某年某月: 94 女 
下午下班后,赶时间去买东西,刚走出门没两步,就看到辆酷似邻居的车过来,然后我就习惯性的点一下头,挥一下手。车子在我旁边停下来,打开车窗后,我仔细一看是不认识的人,然后那人问我这条道是不是死胡同?为了化解尴尬,只好顺势的继续边挥手边说:是的,不通车不通车…
1302 11
傲世哼哈 30 男 
单位一同事新婚少妇,老吹她老公多牛逼,有天我忍不住了:天天你老公,你不替他吹会死啊!女同事立马回道:我不吹我老公难道替你吹啊!~好像很有道理,我尽无言以对~就是,边上那猥琐男你笑那么淫荡是什么意思呢
157 157
天阶夜色凉如水! 34 女 
应该是三岁以前的事,那时候还没有我妹妹(妹正好比我小三岁)。都说人一般五岁之前的记忆几乎为零,但那件事直到现在还记忆犹新:家里养了几只大鹅,农村里的应该都知道,鹅很凶滴……家里的鹅是圈养的,平时我总是喜欢拿棍子去打它们,一般都是白天,有时候还把圈的门打开,跑到里面去打,每次都被鹅啄得哭,不知道被爷爷“救”过多少次,越是受了它们“欺负”,就越是要去打。开始作死了……有天晚上,家里人都在堂屋看电视,我一个人搭凳子打开外面的灯,推开门又跑到圈里面去打鹅,可想而知,我被那群大鹅“围殴”,啄得我作死的哭,...
查看全文
1083 28
...

总结:目前都是用轻量级的bs4模块爬取的,中间调试遇到了几次问题,比如遇到匿名用户就没有性别和年龄的问题还有内容字段中取值遇到中间有br标签的问题,导致我string方法不能取到内容,这个问题在下面一个爬虫例子中我也有遇到,目前我用的get_text()方法取得当前tag下所有文本,确定是会有多余的换行还需要replace处理下,以后再学习下别的模块是否有更方便的做法。

2.2)简书首页文章信息 http://www.jianshu.com/
包括:标题,作者,发表时间,阅读量,评论数,点赞数,打赏数,所投专题
代码如下:

import urllib2
from bs4 import BeautifulSoup


domain = 'http://www.jianshu.com'

def getConent(url):
    req = urllib2.Request(domain)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
    }
    req.headers = headers
    html = urllib2.urlopen(req).read()
    soup = BeautifulSoup(html.replace('\n',''),'html.parser')
    notelist = soup.select('ul.note-list')[0].contents
    #print notelist
    for child in notelist[1:-1]:
        #print child
        title = child.select('a.title')[0].string
        #author = child.select('div.name')[0].contents[1].string
        author = child.select('div.name')[0].get_text().replace('\n','')
        time = child.select('span.time')[0].attrs['data-shared-at']
        meta = child.select('div.meta')[0].get_text().split()
        if len(meta) == 4:
            tag,read,comment,like = meta
            money = 0
        elif len(meta) ==5:
            tag, read, comment, like,money = meta
        # title = child.select('a.title')[0].string
        print title,author,time,read,comment,like,money,tag

if __name__ == '__main__':
    getConent(domain)

运行结果:

亲亲抱抱举高高,为什么中国女生那么娇贵?  狸小猫   2017-06-11T08:00:49+08:00 9104 225 223 2 社会热点
“你到底要不要俗气的幸福” | 为什么越来越不想结婚  新世相   2017-06-12T11:50:30+08:00 1737 16 37 0 心理
美国 第一篇 初到美国的大开眼界  单车环球陈桂权   2017-06-12T08:33:09+08:00 1942 17 79 4 旅行·在路上
高考结束,写给要高三的表妹  五虎谷的阿格   2017-06-11T17:58:35+08:00 4 12 1 0 899
君联资本王建庆:创业公司常面临的三类问题 |捕手志  捕手志   2017-06-11T02:14:05+08:00 515 1 27 0 职场
收藏 | 做了3个月自媒体副主编,我总结了这42个审稿自问题目  NJ安可   2017-06-06T09:24:23+08:00 733 18 68 2 谈写作
大奖寻人 | 寻找能看到音乐的人,一起画音乐  简书活动精选   2017-06-12T11:05:52+08:00 733 18 68 2 谈写作
欧洲游散记【2】  树伟   2017-06-12T08:47:28+08:00 9 20 4 0 388
阶层固化的口号为何都是80们后提出?  纽约老李校长   2017-06-11T16:51:03+08:00 1681 33 40 1 想法
写给新人的一封信  ThoughtWorks中国   2017-06-12T14:42:41+08:00 54 0 1 0 职场菜鸟成长记
技术合伙人如何保护自己的利益  范凯   2017-06-12T13:53:21+08:00 10 0 0 0 @IT·互联网
徐敏:红色老人 范 明  布衣沙弥   2017-06-11T22:52:41+08:00 10 0 0 0 @IT·互联网
你坚持的合群,不过是孤独的开始  少校十三   2017-06-12T11:01:06+08:00 379 15 32 1 想法
7个趣味经济学小故事,你听过几个?  云掌君   2017-06-11T17:50:41+08:00 632 3 53 1 财经·投资·理财
旅行攻略 | 10天9夜2000元玩转云南  上野枝子   2017-06-11T23:58:54+08:00 1125 23 70 0 旅行·在路上
简书用户数据第一篇  浪费了昨天   2017-06-11T23:41:56+08:00 315 11 18 3 @IT·互联网
知识付费这件小事  小鹅通的小饼   2017-06-09T23:30:26+08:00 25 68 16 0 3642
只是睡过,不曾爱过  朝歌晚丽   2017-06-11T17:43:21+08:00 2496 62 54 0 谈谈情,说说爱
在别人的故事里,看到了自己  无戒   2017-06-12T10:48:34+08:00 1403 14 48 0 谈谈情,说说爱
『一元短篇小说训练营』第三期正式招募|专注你的故事创作  一元亦有用   2017-06-12T12:33:23+08:00 757 14 23 1 短篇小说

总结:与上面一例的爬虫代码大同小异,主要在数据的抓取上,个人感觉代码应该会有较多bug,还需加强学习。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容