scrapy python爬虫框架使用

scrapy已经支持python3,以下是在mac python3环境下使用记录,假设已经安装python3。

scrapy安装

  • pip3 install scrapy

scrapy知识点

  • scrapy优点:支持xpath;基于twisted,性能不错;有较好的调试工具;
  • 教程参考
  • scrapy可以使用XPath语言查找网页元素,XPath教程
  • scrapy写入mysql数据库参考

scrapy使用

  • 创建项目scrapy startproject tutorial
  • 项目结构
  • 定义Item
  • 编写第一个爬虫(Spider)
  • 爬取scrapy crawl dmoz

scrapy抓取的数据保存到数据库

  • 编写pipelines.py
  • 设置setting.py
    ITEM_PIPELINES = {'tutorial.pipelines.TutorialPipeline': 300,}

PyCharm设置scrapy调试

推荐阅读更多精彩内容