目标范围
导出最近9个多月的数据,从岗位的维度导出招聘经理侧的统计数据;导出员工侧数据
需求分析
- 招聘经理侧数据发生变化,维度从人、次的维度,变成了岗位、次的维度。以前没有处理过,对岗位相关信息又不熟
- 导出员工侧数据去掉了开始截止,只有一个截止时间。比较简单
流程
在认真分析完需求后,没有想到好的方法去突破,一直在想流程化、办自动化,花了将近一个晚上的时间。第二天,还是直接用原始的导数据、持久化、清理数据、分析数据的方式去处理,导了完整的聊天数据、回话岗位、匿名信息,准备从聊天消息入手去处理数据,而不是从sqlserver的几张表,因为发现了消息和sqlserver表的数据量不一致。花了两天时间处理完岗位维度的招聘经理侧统计数据,花了很多时间导出数据、导入数据。花了一个早上导出了员工侧数据(用的现成的sql),然后持久化到本地,分析,导出,也是花了很多时间在导出数据、导入数据的环节。
问题
- 突破点没找好。还是从流程化、半自动化的方向去突破,结果没找到突破点。这时应该想想其他突破点,已经是准备弄一个本地分析系统了,就应该想到从“如何设计数据分析”平台方面突破。
- 数据分析系统技术选型有问题,开发效率比较低,目前是java+spring boot + mysql + mybatis。这组技术的好处在数据分析时,并没有体现出来,尤其是面向对象和excel导出,数据分析时的代码也太厚
- 流程化、半自动化的目标要精细,特别是手动处理的部分,要进一步缩小范围
- 对于员工侧数据的excel导入,没有用好索引,导致列不对,花了时间去处理
值得肯定的地方
- 借助以往数据分析的经验,对于处理较大数据时,返工成本比较高,所以花了较多的时间去分析和设计流程,这省了部分时间。
- 流程化、办自动化,让整个处理过程有条不紊
- 突破了以往经验,手动导出了各种数据
- excel导入、导出的代码准确性更高了
总结
- 流程化、办自动化,的确提高了效率,是指不出错,方便探索分析
- 当准备做成一个系统时,也可以从系统设计、架构设计方面去提效
改进
- 加后门非敏感数据下载接口,聊天消息、匿名信息、回话岗位,全量下载非敏感数据,限制只有领导和我能访问
- 尝试切换到pgsql+python的技术栈,java那套做数据分析有点慢,面向对象对数据分析完全没用
- 可以弄个定时任务, 离线计算出所有的邀约、感兴趣、咨询、回复数据,然后方便从不同角度去聚合分析
实施计划
- 新增数据接口后门、常见数据分析实现
- python处理excel,与pgsql交互