Python系列爬虫之爬取并简单分析A股公司数据

21.jpg

前言

利用Python爬取并简单分析A股公司数据。让我们愉块地开始吧~

开发工具

Python版本:3.6.4
相关模块:

requests模块;

bs4模块;

lxml模块;

pyecharts模块;

wordcloud模块;

jieba模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

目标网站:

http://www.askci.com/reports/

需要爬取的数据如下图所示:

#

懒得动脑子了,直接借助BeautifulSoup提取的这些数据,简单粗暴,源代码如下:

图片

完整源代码详见个人主页或私信获取相关文件中的Spider.py文件。

运行效果截图如下:

图片

All done~

数据分析

在数据爬取部分,我们共获得了3573条A股公司数据,下面我们就来简单地可视化分析一波吧~

首先让我们来看看A股公司的区域分布吧:

图片

其中A股公司超过三百家的省份有:

  • 广东

  • 北京

  • 浙江

  • 江苏

接下来再来看看A股公司的收入情况吧:

图片

其中主营业业务收入TOP10为:

图片

再来看看A股公司的员工数量呗:

图片

再来看看A股公司的上市时间分布呗:

图片

其中,2013年上市的公司数量最少(2个);2017年上市的公司数量最多(438个)。

OK,要不我们再来看看A股公司所在的行业类型占比TOP10吧:

图片

Emmmm,很真实。

最后,我们把A股公司主营业务画成词云看看呗:

图片

看完篇文章喜欢的朋友点个爱心支持一下,关注我每天分享Python数据爬虫案例,下篇文章分享是Python简单分析高考数据

All done!本部分内容涉及到的所有源代码均在个人简介或私信相关文件中的analysis.py文件内。

推荐阅读更多精彩内容