一、前言
学习python大半年,也算基本入门。python作为一个简单易学且具有强大生产力的工具,在工作和生活中都提供了极大的助力,项目中写写脚本、爬爬数据,生活中帮朋友水水论文做做实验都还是能够勉强应付。虽然深知姿势水平还需极大提高,但是方向太多,不知如何着手。一直都对知乎数据很感兴趣,想做点什么,但始终没有静下心来付诸行动,最近忙里偷闲,琢磨着也许可以借此机会逼着自己开始去系列化的学习来提高自己。本次练手项目是基于知乎话题数据的简单可视化,包括知乎数据的搜集(共获取到33586个话题数据,不包含未分类话题以及丢失部分话题)和可视化两个部分。数据在文末。
二、数据可视化:
可视化部分采用pyecharts包处理,chenjiandongx/pyecharts
本次采集到知乎话题总数33586个,所有话题关注人数总量为592,534,475人,平均每个话题关注人数为17642人。其中关注人数最多的话题是【电影】话题,关注人数为17,839,771人;话题关注人数TOP10,如下图所示:
按照关注人数维度,将话题按照关注人数1000W以上、100W~1000W、10W~100W、1W~10W、0~1W、0 六个等级进行划分,其所占比例如下图所示:
从话题关注量来看,90%以上的话题其关注量都在1W以下,这些话题中,又有70%的话题关注量集中在1K以下。
2、话题关系可视化:
话题关系图谱以知乎话题为节点,父话题与子话题关系为连接线,节点越大表示关注度越高,按照节点关注量分布,将话题颜色标识为7个等级。
话题关系网络的产生,是输入一个话题,然后逐级迭代,直至最后一级,关系网络将是该话题下的整个话题树的关系展示。越是顶级的话题,其关系图谱会越复杂
【电影】话题关系图。先直观感受以下,关注量最多的【电影】话题的子话题关系图。点击图片会清晰一点(不知道如何在知乎上传高清大图...o(╯□╰)o)
下面列表是关注度最高的TOP20电影。
【明星】话题关系图
明星关注度列表TOP20。哎哟,周杰伦排第一哟。我渤哥关注量也过万了:-D
【演员】话题关系图,演员节点旁边的仓井优看成了苍井空(o(╯□╰)o)
演员列表top20
【旅行】话题关系图
旅行话题关注列表top20,自助游和穷游名列前茅Σ( ° △ °|||)︴,知乎穷游群体真这么大?
【知乎】和【豆瓣】话题关系图
【数据】话题关系图
【数据库】话题关系图
【数据分析】话题关系图
以及【Python】话题关系图
最后,老司机要开车了
数据地址http://pan.baidu.com/s/1i46uCZz密码 2m9p