部门分享Django和爬虫

一、Django简单接口开发分享：

1、在开发之前需要配置开发环境，摆脱Ubuntu上面开发，在Mac电脑上面创建虚拟环境开发
2、django-admin startproject jiekou
3、创建应用python manage.py startapp myjiekou
4、打开项目，把应用注册在setting.py文件

INSTALLED_APPS = (
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
    'myjiekou',
)

5、在models.py文件里面定义模型类，定义需要的字段

# encoding=utf-8
from django.db import models

# Create your models here.

class MyModel(models.Model):
    # 姓名
    name = models.CharField(max_length=20)
    # 年龄
    age = models.CharField(max_length=100)
    # 爱好
    hobby = models.CharField(max_length=300)

6、生成迁移文件python manage.py makemigrations
7、生成迁移python manage.py migrate，迁移完成以后会自动生成一个auth表
8、运行python manage.py runserver，通过连接http://127.0.0.1:8000/admin看下后台管理界面
9、看后台管理界面之前需要注册管理员账号python manage.py createsuperuser
10、登进去以后为什么没有我们新建的表格那？

admin.png

原因是：我们没有在admin.py文件里面进行注册我们的模型类，接下来进行注册

from django.contrib import admin

from  myjiekou.models import MyModel
# Register your models here.

class MyAdmin(admin.ModelAdmin):
    list_display = ["name","age","hobby"]

admin.site.register(MyModel,MyAdmin)

11、再次执行python manage.py runserver
12、让我们再看一下admin管理界面，并添加字段

admin1.png

13、我们再admin管理界面的数据怎么怎么在django web页面显示那我们来进行下步操作，我们目的需要通过http://127.0.0.1：8000/index来进行访问显示我们输出的内容，首先我们先进行简单的显示

#encoding=utf-8
from django.shortcuts import render
from django.http import HttpResponse
# Create your views here.
def index(request):
    return HttpResponse("你好 我的体育老师")

admin2.png

再次，我们需要把SQLite数据展示在我们页面上，首先导入我们的模型类

setting.py配置路径
TEMPLATES = [
    {
        'BACKEND': 'django.template.backends.django.DjangoTemplates',
        'DIRS': [os.path.join(BASE_DIR),'templates'],
        'APP_DIRS': True,
        'OPTIONS': {
            'context_processors': [
                'django.template.context_processors.debug',
                'django.template.context_processors.request',
                'django.contrib.auth.context_processors.auth',
                'django.contrib.messages.context_processors.messages',
            ],
        },
    },
]

在view.py文件中
#encoding=utf-8
from django.shortcuts import render
from django.http import HttpResponse
from models import MyModel
# Create your views here.

def index(request):
    content = MyModel.objects.all()
    list = {"content":content}
    return render(request,"myjiekou/index.html",list)

index.html显示
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
<ul>
        {% for item in content %}

            <li>{{ item.name }}</li>
            <li>{{ item.age }}</li>
            <li>{{ item.hobby }}</li>

        {% endfor %}
</ul>
</body>
</html>

注意：我们再操作过程中会产生一些问题，例如下面，我们解决就好

MIDDLEWARE_CLASSES = [
    'django.contrib.sessions.middleware.SessionMiddleware',
    'django.contrib.auth.middleware.AuthenticationMiddleware',
    'django.contrib.messages.middleware.MessageMiddleware',
]

14、管理界面汉语化

LANGUAGE_CODE = 'en-us'

15、接下来进行django接口开发

首先导入模块
from django.http import JsonResponse

url配置
from myjiekou import views
urlpatterns = [
    url(r'^admin/', include(admin.site.urls)),
    url(r'^index/', views.index),
    url(r'^api/', views.api),
]

api实现
def api(request):
    list = []
    item = {}
    content = MyModel.objects.all()

    for one in content:
        item["name"] = one.name
        item["age"] = one.age
        item["hobby"] = one.hobby
        list.append(item)

    return JsonResponse({"status":200,"date":list})

admin3.png

接下来我运行一下OC程序来调用这个接口，看是否调用成功

二、爬虫爬取某个网站

先了解下爬虫的基础模块
1、re模块：主要是使用正则匹配对抓取的数据进行分析
2、XPath：查找 HTML 节点或元素进行数据过滤
3、BeautifulSoup4：也是一个HTML/XML的解析器，解析和提取 HTML/XML 数据
4、JSON与JsonPATH：JSON数据解析
下面通过一个实例说明，主要使用了XPath查找 HTML 节点或元素解析

# -*- coding:utf-8 -*-

import urllib2,os
import lxml.etree

class Xunmall():
    def __init__(self):
        self.url = "http://www.xunmall.com"

    def get_html(self,p1 = ""):
        # headers = {
        # "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Mobile Safari/537.36"}
        request = urllib2.Request(self.url + p1)
        response = urllib2.urlopen(request)
        html = response.read()
        return html

    def get_xpath(self):
        xmlcontent = lxml.etree.HTML(self.get_html())
        xmllist = xmlcontent.xpath('//h2[@class="floor_name"]/text()')

        for item in xmllist:
            with open('title.txt','a') as file:
                file.write(item.encode('utf-8') + '\n')
                file.close


    def get_image(self):
        xmlimage = lxml.etree.HTML(self.get_html())
        imagelist = xmlimage.xpath('//div[@class="color_top"]/img/@src')
        if os.path.isdir('./imgs'):
           pass
        else:
            os.mkdir("./imgs")
        for item in imagelist:
            print self.url + item
            with open('imgs/' + (self.url + item)[-8:],'a+') as file:
                file.write(self.get_html(item))
                file.close

    def get_theme(self):
        xmltheme = lxml.etree.HTML(self.get_html())
        themelist = xmltheme.xpath('//h3[@class="floor_theme"]/text()')

        for item in themelist:
            with open('theme.txt','a') as file:
                file.write(item.encode('utf-8') + '\n')
                file.close

        sloganlist = xmltheme.xpath('//p[@class="slogan"]/text()')
        for item in sloganlist:
            with open('theme.txt','a') as file:
                file.write(item.encode('utf-8') + '\n')
                file.close

        give_outlist = xmltheme.xpath('//p[@class="give_out"]/text()')
        for item in give_outlist:
            with open('theme.txt', 'a') as file:
                file.write(item.encode('utf-8') + '\n')
                file.close

    def get_html1(self,p2):
        request = urllib2.Request(p2)
        response = urllib2.urlopen(request)
        html = response.read()
        return html

    # 食品标题和图片
    def foodImageTitle(self):
        foodImage = lxml.etree.HTML(self.get_html())
        foodImageList = foodImage.xpath('//div[@class="pro_image"]/img/@src')

        if os.path.isdir('./foodimage'):
           pass
        else:
            os.mkdir("./foodimage")
        for item in foodImageList:
            print item
            with open('foodimage/' + item[-20:],'a+') as file:
                file.write(self.get_html1(item))
                file.close

    # 每个零食的详细信息（标题、图片、副标题）
    def detail(self):
        detailLink = lxml.etree.HTML(self.get_html())
        detailLinkList = detailLink.xpath('//div[@class="nth_floor first_floor"]/div[@class="goods_box"]/ul[@class="item_list"]//a/@href')
        for item in detailLinkList:
            # print item[-18:]
            detailUrl = lxml.etree.HTML(self.get_html("/" + item[-18:]))
            detailImageList = detailUrl.xpath(
                '//div[@class="info-panel panel1"]/img/@src')

            for detailitem in detailImageList:
                print '正在下载详情图片'

                if os.path.isdir('./' + item[-18:-5]):
                    pass
                else:
                    os.mkdir("./" + item[-18:-5])

                with open(item[-18:-5] + '/' + detailitem[-9:], 'a+') as file:
                    file.write(self.get_html1(detailitem))
                    file.close
            # 商品标题
            detailtitleList = detailUrl.xpath(
                '//div[@class="col-lg-7 item-inner"]//h1[@class="fl"]/text()')

            for title in detailtitleList:
                with open('foodtitle.txt', 'a+') as file:
                    file.write(title.encode('utf-8') + '\n')
                    file.close
            # 商品编号
            goodnumberList = detailUrl.xpath(
                '//div[@class="col-lg-7 item-inner"]//li[@class="col-lg-5 col-md-5"]/text()')
            for number in goodnumberList:
                print number
                if os.path.isdir('./qrcoder'):
                    pass
                else:
                    os.mkdir("./qrcoder")

                with open('qrcoder', 'a+') as file:
                    file.write(number.encode('utf-8') + '\n')
                    file.close

            # 商品二维码:data_code
            coderImageList = detailUrl.xpath('//div[@class="clearfixed"]//div[@class="barcode fr"]/img/@data_code')

            for item in coderImageList:
                print item
                with open('goodnumber.txt', 'a+') as file:
                    file.write(item + '\n')
                    file.close


if __name__ == "__main__":
    # 获取分类标题
    xunmall = Xunmall()
    # xunmall.get_xpath()
    # 获取图片
    # xunmall.get_image()
    # 图片上面的标题
    # xunmall.get_theme()
    # 休闲食品标题和图片
    # xunmall.foodImageTitle()
    xunmall.detail()

后续会分享Swift哦，只是简单的分享下学习成果，和项目组一起探讨和学习。

最后编辑于：2017.11.24 13:28:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,408评论 4赞 371
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,690评论 2赞 307
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,036评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,726评论 0赞 221
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,123评论 3赞 296
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,037评论 1赞 225
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,178评论 2赞 318
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,964评论 0赞 213
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,703评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,863评论 2赞 254
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,333评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,658评论 3赞 263
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,374评论 3赞 244
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,195评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,988评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,167评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,970评论 2赞 279

部门分享Django和爬虫

一、Django简单接口开发分享：

二、爬虫爬取某个网站

推荐阅读更多精彩内容