爬虫篇-初识爬虫之urllib操作

TZ : 学习是不断进步的阶梯

一 : 爬虫简介

网络爬虫(又被称为网页[蜘蛛],网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫.

爬虫原理:

1.首先确定需要爬取的网页UR地址
2.通过HTTP/HTTPS协议来获取对应的HTML页面
3.提取页面有用的数据

爬虫的分类
  • 通用爬虫 :

通常来说就是搜索引擎,尽可能把互联网上的网页下载下来,放到自己的本地服务器形成备份,再对这些网页做相关处理,提取关键字,去除广告,最后提供一个用户检索接口.
通用爬虫需要遵守Robots协议规则,协议中会指明爬虫可以爬取网页的权限,大型搜索引擎都会遵守.

  • 聚焦爬虫 :

面向用户需求爬虫,会针对某种特定的内容爬去信息,而且保证信息和需求尽可能相关.

二 : 抓包工具

Charles其实是一款代理服务器,通过过将自己设置成系统(电脑或者浏览器)的网络访问代理服务器,然后截取请求和请求结果达到分析抓包的目的。

https设置

1.安装SSL证书


ssl证书

2.证书设置成永久信任


信任证书

3.添加网站

选择

在add ->后分别设置 /
设置

手机抓包在这里就不说了,很简单网上有很多,如果找不到,评论区留言,我会单独给你讲解.

三 : urllib基本操作

User-Agent 是爬虫和反爬虫重要的一个步骤,反爬虫可以通过这个属性来过虑掉一批爬虫访问,所以们要模拟这个属性

GET爬去普通网页
# Author:TianTianBaby

import ssl
ssl._create_default_https_context = ssl._create_unverified_context
import urllib.request as  myurllib
linkUrl = 'https://www.baidu.com/'


#构造headers  
ua_headers = {

    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
}
urlRequest = myurllib.Request(linkUrl,headers=ua_headers)

#向指定的url 地址发送请求,并返回服务器响应的类文件对象
response = myurllib.urlopen(urlRequest)

#服务器返回的类文件对象 支持 python 文件对象的操作方法
#read() 方法是读取返回文件全部内容,返回字符串
html = response.read()
#打印响应内容
print(html)

#返回请求的响应码 成功返回200 ,4开头表示 服务器页面问题 , 5 开头表示服务器本身问题
print(response.getcode())

##返回 数据实际的url, 防止重定向
print(response.geturl())

#返回服务器响应的HTTP报头
print(response.info())

POST爬去普通网页
ua_headers = {

    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
}

url = "http://wz.kulehu.com/app/index.php?i=1&c=entry&do=search_school&m=ted_users"

dic  = {

"school_name":"沈阳市"

}
data = parse.urlencode(dic).encode()
request = myurllib.Request(url,data=data,headers=ua_headers)
response = myurllib.urlopen(request)
myjosn = response.read()

print(myjosn)

四 : Cookie模拟登录

通过抓包工具,找到一个登录的网页的Cookie信息进行模拟登录,有不知道Cookie是个什么东西的小伙伴点这里-->点我了解,模拟登录就以简书为例子了.
我先登录一下简书,找出Cookie进行模拟登录.

# Author:TianTianBaby
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
import  urllib.request as myurllib


url = "https://www.jianshu.com/users/077936bc1760/following"
headrs = {

"Host":"www.jianshu.com",
"Connection":"keep-alive",
"Accept":"text/html, */*; q=0.01",
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Referer":"https://www.jianshu.com/users/077936bc1760/following",
"Accept-Language":"zh-CN,zh;q=0.9",
"Cookie":"这是我的秘密要用你自己的哦",
}
request = myurllib.Request(url,headers=headrs)
response = myurllib.urlopen(request)
print(response.read().decode())
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容