5.2 高富帅python-人工智能时代

96
PMskill产品社区 8b56c3ad ed71 48e0 acab 4324dec38826
2018.05.11 14:42* 字数 947

小奈:其实你们写的代码好像有不同派系的?
大仁:你是说编程语言?我来介绍下吧,我们来看下GitHub(程序员同城交友、代码协作平台)的数据,看下各种编程语言 Pull Requst的数据, Javascript的提交量最高,前端的鼎盛时期,python则处于飞速上升中,很有潜力。Java一直很稳,常年占据了后端主流编程语言第一。


image.png

python热度为何持续上涨?

高富帅

python可以用来干什么呢?

  • 后端开发语言,常见开发架构django;
  • 数据分析,常用库,pandas;
  • 爬虫,scrapy;
  • 人工智能,tensorflow。

人工智能和数据分析,近年来需求持续攀升,这方面人才待遇也是水涨船高,既然python那么能干,热度自然飞速上涨。

爬虫

说到数据分析,我们不得不说下数据来源,一般是内部数据,也有外部数据,外部数据的获取有很多种,最常见的方式就是爬虫了。
爬虫基于robots协议可以公开爬去网络上的信息。

python的工作原理

爬虫工作原理

python中有成熟的爬虫框架(scrapy、bs4),只要你给爬虫一个网址,它就可以去爬取,和输入url类似却又不同,不同的是爬虫会把这些html文件里有用的信息抓取回来,而且爬虫可以爬取该网站相关的其它链接,像是daquan里的abc、123、456等。

小奈:爬取别人的信息会不会违法?
大仁:看你怎么爬取,其实有个爬虫协议(robots),每个网站都可以声明,其实就是声明那些文件可以、那些不可以,下面以淘宝网的robots.txt为例:

User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Disallow: /product/
Disallow: /

遵循robots协议前后

遵循robots协议后,爬取的数据不用于商用,基本上没事,商用的话目前还是灰色地带,混沌蛮荒阶段。

淘宝对百度的屏蔽

当年还可以在百度里搜索到淘宝商品信息,后来淘宝决定对搜索引擎实施不同程度的屏蔽,那时候淘宝体量还没那么大,屏蔽百度,会少了很多站外流量。但是这个关键性的决定,让用户心智统一(淘宝里才可以搜索商品),后面现金流般的淘宝广告就更不说了,站在当时,很考验产品决策人。

搜索引擎

爬虫似乎和搜索引擎密切相关,是的,是时候来科普下,搜索引擎的工作原理。


搜索引擎工作原理

假如你在“JackSearch”,这个搜索引擎里,输入“产品经理”,那么当你点击搜索时,服务器就会去数据库查找,返回相关的文件信息,那么你就会问,这些文件是哪来的?
是爬虫们去网页世界里爬取的。

当然,搜索引擎远比这个复杂,爬虫抓取回来的信息,还需要存储,建立索引,这个推荐一本书,luence.


image.png

ide

数据产品经理常用工具

pycharm

爬虫框架scrapy

Scrapy: Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

201805110249301526021370827_small.gif

数据存储

mysql存储

分布式爬虫

PMskill
PMskill
7.7万字 · 5.4万阅读 · 428人关注
www.pmskill.net 产品经理的技术学习社区 经常有产品新人问我技术问题。 像是前后端的区别?数据库是怎么样的?如何和研发沟通?    回答的多了,就想系统化的回答,写一本书,让技术变得通俗易懂、有趣。    6年间,从技术小白=>工程师=>后台、数据产品经理,2000多个日夜,为代码、需求绞尽脑汁、也在创业路上走过,百感交集。   本书以小说故事的形式、场景化讲解技术,让枯燥的技术变得有趣。