我的Python之旅 - 文集

我的Python之旅

19篇文章 · 26916字 · 11人关注

超详细的Python实现新浪微博模拟登陆(小白都能懂)
最近由于需要一直在研究微博的爬虫，第一步便是模拟登陆，从开始摸索到走通模拟登陆这条路其实还是挺艰难的，需要一定的经验，为了让朋友们以后少走点弯路...

1.0 43605 85 149 2
使用Jenkins进行Python项目的持续集成
持续集成（CI）对于软件工程来说非常重要，它的意义在于产品快速迭代的同时，还能够让代码保持高质量，所以编写高质量的单元测试代码也显得十分重要。T...

0.9 28467 5 22

在jupyter notebook上使用python虚拟环境
jupyter notebook是交互式的Python运行环境，可以把它看做是一张草稿纸，你可以通过它来进行你的思考探索过程，交互式的进行，每一...

26483 5 16
使用celery遇到的坑
最近在写一个分布式微博爬虫，主要就是使用celery做的分布式任务调度。celery确实比较好用，但是也遇到一些问题，我遇到的问题主要集中在定时...

0.4 9761 2 8
如何构建一个分布式爬虫：理论篇
前言本系列文章计划分三个章节进行讲述，分别是理论篇、基础篇和实战篇。理论篇主要为构建分布式爬虫而储备的理论知识，基础篇会基于理论篇的知识写一个...

0.7 14163 9 54 2
如何构建一个分布式爬虫：实战篇
本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇，拟从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效，抓过微博数据的同...

5400 4 34
使用python+微博进行远程关机
很长一段时间没有更新简书的内容了，打算把微博爬虫完善得差不多之后，再系统的把做微博爬虫的每个模块和阶段都记录下来。其中微博页面抓取和解析、用户页...

0.2 1321 2 12

haipproxy高可用核心策略
昨日使用haipproxy作为代理源，对知乎进行了数据抓取相关的性能测试，测试效果还不错，有兴趣的可以点击项目主页查看测试结果。但是它仍有继续优...

1345 2 2
thriftpy初体验
目前有这么一个需求：线上有很多个爬虫程序，它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份，但是考虑...

5861 2 3