第一个 Python 程序:爬图片

写在前面

估计很多人学习 Python 的目的应该和我一样,都是为了学会爬网络资源,感觉会这个吊吊的。看了一些各路大神的博客资料感觉都很厉害,但是无奈我对 Python 一无所知,于是开始在网上搜一些 Python 入门教程。看了知乎大神的回复觉得还是很有道理的,跟我的想法差不多,学习 Python 最好一开始就找一些项目做,需要用到哪些知识再去学习,这样你会知道每一个知识点怎么用。这里就不推荐了,毕竟我也是小白,如果你实在不知道怎么学,就看看下面两个吧:

菜鸟教程 廖雪峰

不废话了,下面开始今天的主题:煎蛋网妹子图爬取

准备工作

  1. 安装Python 我用的 mac book,自带的是2.6的版本,于是安装了2.7了。还有 pip 的安装。
    如果你不知道安装了没有,就在命令行敲下面命令,如果输出版本号就是已经安装了
Mac-Book-Pro:$ python --version
Python 2.7.13
Mac-Book-Pro:$ pip --version
pip 9.0.1 from /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages (python 2.7)
  1. 安装一款 Python IDE 这里用的是 pyCharm


    屏幕快照 2017-06-08 16.52.53.png
  2. 用 Firefox F12分析 煎蛋网HTML,找到我们需要的信息
    <li id="comment-3471915">
    <div>
    <div class="row">

                     <div class="author"><strong
                             title="防伪码:0fd87a7301bb95109c4bdb042e4912d14371ef75" class="">hehe</strong>                            <br>
                         <small><a href="#footer" title="@回复"
                                   onclick="document.getElementById('comment').value += '@<a href="http://jandan.net/ooxx/page-99#comment-3471915">hehe</a>: '">@14 mins ago</a></span></small>
                     </div>
                     <div class="text"><span class="righttext"><a href="http://jandan.net/ooxx/page-99#comment-3471915">3471915</a></span><p><a href="//wx3.sinaimg.cn/large/a82b014bly1fgdvr9so8jg20dw0691kx.gif" target="_blank" class="view_img_link">[查看原图]</a><br />![](//wx3.sinaimg.cn/thumb180/a82b014bly1fgdvr9so8jg20dw0691kx.gif)</p>
                     </div>
                     <div class="jandan-vote">
                         <a title="圈圈/支持" href="javascript:;" class="comment-like like" data-id="3471915" data-type="pos">OO</a> [<span>7</span>]
                         <a title="叉叉/反对" href="javascript:;" class="comment-unlike unlike" data-id="3471915" data-type="neg">XX</a> [<span>0</span>]
    
                         <a href="javascript:;" class="tucao-btn" data-id="3471915"> 吐槽 [2] </a>
                     </div>
                 </div>
             </div>
         </li>```
    

敲代码了

下边代码可以运行,但是需要手动修改图片的保存地址

# coding=utf-8

import requests
import urllib2
import os
from lxml import etree

这里有些库文件是要自己手动下载的,例如提示找不到 lxml 就需要自己下载
可以在命令行输入 pip install lxml,也可以在 IDE 里边安装,在 IDE 安装的
时候回碰到一些问题,比如找不到pip,如果你已经安装了,首先找到安装的地址,可以输入命令 which pip

Mac-Book-Pro:$ which pip
/Library/Frameworks/Python.framework/Versions/2.7/bin/pip

找到下图的位置


屏幕快照 2017-06-08 17.58.49.png

点击下图中路径后面的小三角找到你安装 Python 的途径,相信你已经看到下面的文件了,对,这就是已经安装的库文件,上面说的添加库文件就在这里。点击最下面的加号按钮


屏幕快照 2017-06-08 17.59.04.png

在下图输入你要安装的库名,点击最下面的 install 等待安装即可


屏幕快照 2017-06-08 17.59.27.png
#刚学习还不知道怎么拿到最大页数,于是自己手动填写的
page = str('99')

def getHtml():
    #这个 url 就是分析 HTML 的得到的,改变页数就可以加载不同的图片
    html = requests.get("http://jandan.net/ooxx/page-" + page + "#comments")
    html.encoding = 'utf-8'

    #下面两句拿到 HTML 里边所有图片的链接
    selector = etree.HTML(html.text)
    urlarr = selector.xpath('//ol[@class = "commentlist"]//@src')

    #for 循环拿到所有图片url,并且保存到本地
    for imgurl in urlarr:
        name = imgurl[-9:]
        os.chdir(r"保存图片的地址,自己修改")
        header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/35.0.1916.114 Safari/537.36',
            # 'Cookie': 'AspxAutoDetectCookieSupport=1'
        }
        request = urllib2.Request('http:' + imgurl, None,
                                  header)  # 刻意增加头部header,否则本行与下一行可以写为:response = urllib2.urlopen(imgurl)
        response = urllib2.urlopen(request)
        f = open(name, 'wb')
        f.write(response.read())
        f.close()
        print(imgurl)
#程序入口
if __name__ == '__main__':
    #这里只做两次循环演示
    for num in range(0, 2):
        pagenumber = int(page)
        print (pagenumber)
        if pagenumber > 97:
            getHtml()
            pagenumber -= 1
            page = str(pagenumber)
            print (page)
        else:
            break


虽然写的很基础,也许很多人不屑。但是作为一个小白,最重要的就是培养信心,而信心是每一次细小的成功慢慢积累起来的。自己能写出来还是很欣慰的,需要学习的东西也很多,继续努力吧!

只有学习才能让我快乐,学习不易,且学且珍惜!

zkwgq.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容