Python爬虫系列之抓取爱淘宝网并简单分析商品数据

前言

相信说起“淘宝” ,大家都不会感到陌生吧。作为中国最大的电商平台,淘宝仿佛已经与我们的生活紧密相连。今天就让我们随便愉快地利用Python爬取并简单分析爱淘宝网商品数据。

开发工具

Python版本:3.6.4
相关模块:

numpy模块;

seaborn模块;

requests模块;

pyecharts模块;

pandas模块;

matplotlib模块;

wordcloud模块;

scipy模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。。

数据爬取

我们想要爬取的是爱淘宝网搜索某一关键字后出现的所有商品信息数据:

image.png

测试之后发现请求:

https://ai.taobao.com/search/getItem.htm

并添加关键字和页码数据就可以获取对应的商品信息数据了。于是我们就可以愉快地写代码了:

图片

在cmd窗口运行aiTaobao.py文件测试一下:

image.png

爬取结果保存在data.pkl文件中。

All Done!完整源代码详见主页获取相关文件。

数据分析

因为圣诞节就快要到了,那我们就来分析一下圣诞帽数据呗T_T然后一直用pyecharts好像有点偷懒的样子,所以有些图我换seaborn库画了,日后会逐渐引入一些其他数据可视化用的库

看看圣诞帽的价格分布先吧:

image.png

好像还蛮便宜的~

再来看看卖圣诞帽的商家位置分布呗:

图片

看来大部分卖圣诞帽的商家在浙江呀~

再来看看各商家的销售量排名呗(有些商家名字太长所以只取前面几个字符了):

图片

因为抓取的数据数量和种类不多,所以感觉没啥图好画了,最后再画两个词云玩玩吧:

图片
图片

为了帮助提升正在学习Python编程的伙伴们,在这里为大家准备了丰富的学习大礼包

image

All Done!源代码详见主页获取相关文件。

推荐阅读更多精彩内容