Scrapy爬虫入门教程二 官方提供Demo

Python版本管理:pyenv和pyenv-virtualenv
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)

开发环境:
Python 3.6.0 版本 (当前最新)
Scrapy 1.3.2 版本 (当前最新)

今天研究下官方给出的案例,大家可以多看看,多模仿模仿。

例子

最好的学习方法是使用示例,Scrapy也不例外。因此,有一个名为quotesbot的 Scrapy项目示例,请访问https://github.com/scrapy/quotesbot,一个使用CSS选择器,另一个使用XPath表达式,此项目仅用于教育目的。


提取的数据

提取的数据看起来像这个示例:

{
    'author': 'Douglas Adams',
    'text': '“I may not have gone where I intended to go, but I think I ...”',
    'tags': ['life', 'navigation']
}



爬虫

此项目包含两个爬虫,您可以使用list 命令列出它们:

$ scrapy list
toscrape-css
toscrape-xpath

两个爬虫都从同一网站提取相同的数据,但toscrape-css 使用CSS选择器,而toscrape-xpath使用XPath表达式。



运行爬虫

您可以使用scrapy crawl命令运行爬虫,如:
$ scrapy crawl toscrape-css

如果要将已抓取的数据保存到文件,可以传递-o选项:
$ scrapy crawl toscrape-css -o quotes.json


推荐阅读更多精彩内容

  • 爬虫淘宝数据都要有sign验证,app端是x-sign。 简单来说pc端的sign验证藏在js里面用token+d...
    htmlparser阅读 391评论 1 0
  • btoa() / atob() : 浏览器内置的Base64 编码和解码 1 简单字符串使用 Buffer 方法替...
    木语沉心阅读 205评论 1 1
  • 抖音数据采集API 接口列表: 搜索 关键词搜索用户 关键词搜索话题 关键词搜索视频 关键词搜索音乐 关键词搜索直...
    数据工具箱阅读 237评论 0 0
  • 爬虫框架就是一些爬虫项目的半成品,可以将些爬虫常用的功能写好。然后留下一些接口,在不同的爬虫项目当中,调用适合自己...
    印象python阅读 756评论 0 9
  • 我们在做接口测试时,除了常见的http接口,还有一种比较多见,就是socket接口,今天讲解下怎么用Python进...
    Nikon937阅读 497评论 0 0