Avatar notebook default
19篇文章 · 26916字 · 11人关注
  • 如何将自己的Python包发布到PyPI

    以前写过一篇类似的文章: 如何打包自己的项目并且发布到pypi上,不过由于PyPI进行了一些更新,因此旧方法不大适用了。趁端午有时间,想把hai...

  • 谈谈__eq__和__hash__

    今天刷一道算法题的时候用到了list_a == list_b的判断,==和is大家都已经是耳熟能详了,前者是判断值是否相等,后者是判断引用是否相...

  • Resize,w 360,h 240
    Sentry初体验

    最近由于工作需要,接触了两类监控类产品,一类是对于系统资源,系统状态、应用状态等信息的监控,主要是使用prometheus+grafana,这个...

  • haipproxy高可用核心策略

    昨日使用haipproxy作为代理源,对知乎进行了数据抓取相关的性能测试,测试效果还不错,有兴趣的可以点击项目主页查看测试结果。但是它仍有继续优...

  • Resize,w 360,h 240
    haipproxy校验器编写流程

    使用过代理IP的同学应该都知道,即使是同一个IP,访问不同网站,可用性和速度都可能大不相同。因此,根据实际使用情况编写特定站点的代理校验器是非常...

  • thriftpy初体验

    目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑...

  • Resize,w 360,h 240
    使用Jenkins进行Python项目的持续集成

    持续集成(CI)对于软件工程来说非常重要,它的意义在于产品快速迭代的同时,还能够让代码保持高质量,所以编写高质量的单元测试代码也显得十分重要。T...

  • Resize,w 360,h 240
    如何构建一个分布式爬虫:实战篇

    本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效,抓过微博数据的同...

  • Redis Sentinel 主从高可用配置

    由于分布式微博爬虫中使用celery作为分布式任务调度工具,使用redis作为celery的broker.由于redis是单机,当redis挂掉...

文集作者