用户画像小结

用户画像,英文为Customer Profiling或Persona,核心在于标签化,目的在于得出结论,业务决策。

一、实践经验

管理层想要用户画像,个人感觉主要有两方面的业务原因:

1、风控,特别是基于历史数据中,带来最大盈利的用户,放款后发展越来越好的用户的特点,进行数据挖掘。

2、产品设计,如何更加场景化,增加产品的吸引力。

其他诸如拒绝回捞、精准营销等都是顺手的事情了。

逼格很高,数据丰富,领导宏图大志,希望画像越丰富、越细致越好。工程浩大,但实际业务人员却觉得没啥用,无法直接支持运营,又看得人头晕目眩,沦为数据的简单提取和统计加工。这里总结一下失败的原因,也算没有白干。

1、回头来看,至少应当先做一些简单的、必须的数据项,根据业务的需要再逐步增加,节省物力人力,对于增加内容也有的放矢(很可能是来自业务的实际需求)。

建议前期包括的数据:人口基本属性、历史信用属性,我司历史申请还款记录,要以强相关信息、定性数据(标签化、抽象化)为主。目标是协助业务筛选出感兴趣的客户,定量数据不利于业务直接适用,也由此看出穆迪这类公司为什么会输出企业评级而不是企业信用分。

2、问题定义与问题不可解。

首先,应当具体的场景具体去选择合适的用户标签,不存在一个通用的用户画像。先有业务场景,再有字段需求,如利用银联数据+自身数据+信用卡数据,发现信用卡消费超过其月收入的用户,推荐其进行消费分期。

其次,如放款后的客户,多次续贷并且企业发展越来越好,个人认为是比较难通过内部的一些数据描绘出来的,本身就是一个无法转换为数据问题的业务问题,不可解。

最后,我们的用户标签是很粗浅的、稀疏的,最大的价值就是方便一点、集中一点,想要对业务有更大的价值,应当提取的是隐形的标签(业务无法直接获取的),比如用户的贷款目的、用户资金偏好(适用于授信后客户拒绝接受场景)、产品的使用频次等,当然这需要使用一些模型(简单的规则模型也行)和算法得到。

二、案例研究

1、电商案例

用户样本筛选,目的是区隔用户,可以将复杂的后台数据(业务不可得或需消耗大量精力获得)转换为简单、可理解的业务标签(用户描述)。

用户画像的数据模型,可以概括为下面的公式:用户标识+ 时间 + 行为类型 +接触点(网址+内容),某用户因为在什么时间、地点、做了什么事,打上XX标签(如母婴、红酒等)。

用户标签的权重可能随时间的增加而衰减,定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:标签权重=衰减因子×行为权重×网址子权重。

2、标签体系案例

构建标签体系

主流的标签体系都是层次化的,首先标签分为几个大类,每个大类下进行逐层细分。

基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。

模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签需要用到机器学习和自然语言处理技术。

最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。

具体标签构建

以三类标签为例,三类标签的特性、使用的技术均存在差异。人口属性标签,比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;兴趣属性标签,随时间变化很快,有很强的时效性,标签体系也不固定;地理属性标签,时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新。

很多产品(如QQ、facebook等)会引导用户填写基本信息,包括年龄、性别、收入等人口属性,但完整填写个人信息的用户只占很少一部分。一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。

通过分析,我们发现男性和女性,对于影片的偏好是有差别的,因此使用观看的影片列表来预测用户性别有一定的可行性。此外我们还可以考虑用户的观看时间、浏览器、观看时长等,为了简化,这里只使用用户观看的影片特征。对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。

兴趣画像是互联网领域使用最广泛的画像,主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,因此在构建用户兴趣画像之前,需要先对用户有行为的内容进行内容建模。内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。

新闻数据本身是非结构化的,使用文本主题聚类完成主题标签的构建,形成对新闻内容从粗到细的分类-主题-关键词三层标签体系内容建模(如LDA之类的)。在完成内容建模以后,我们就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重。

用户对每个词的兴趣计算公式:score_{i+1}  = score_{i} + C\ast weight词在本次浏览的新闻中出现C=1,否则C=0,weight表示词在这篇新闻中的权重。该公式有两个问题:一个是用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;一个是用户的兴趣有很强的时效性,昨天的点击要比一个月之前的点击重要的多,线性叠加无法突出近期兴趣。

我们使用如下的方法对兴趣得分进行次数衰减和时间衰减。次数衰减的公式:score_{i+1}  = \alpha *score_{i} + C*weight(0<\alpha<1)α是衰减因子,最终得分会收敛到一个稳定值 ,α取0.9时,得分会无限接近10。时间衰减的公式:score_{day+1}  =score_{day}*\beta (0<\beta<1),根据用户兴趣变化的速度、用户活跃度等因素,也可以对兴趣进行周级别、月级别或小时级别的衰减。

地理位置画像常驻地的挖掘,基于用户IP地址的解析,对用户IP出现的城市进行统计就可以得到常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。GPS数据一般从手机端收集,但很多手机APP没有获取用户 GPS信息的权限。

用户画像效果评估

兴趣画像的人为评估比较困难,常用评估方法是设计小流量的A/B-test进行验证,可以筛选一部分标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反馈,例如如果这批用户的点击率和阅读时长明显高于平均水平,就说明标签是有效的。

用户画像的评估指标主要是指准确率、覆盖率、时效性指标。标签还需要有一定的可解释性(便于理解)和可扩展性(便于维护,后续标签的添加)。

标签的准确率指的是被打上正确标签的用户比例,准确率precision=\frac{\vert U_{tag=true}  \vert }{U_{tag} } 是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。评估一般有两种方法:一种是在标注数据集里留一部分测试数据;另一种是在全量用户中抽一批用户,人工标注评估准确率。由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差,故后一种方法的数据更可信。准确率一般是对每个标签分别评估,多个标签放在一起评估准确率是没有意义的。

标签的覆盖率指的是被打上标签的用户占全量用户的比例,与准确率是一对矛盾的指标,可以拆解为两个指标来评估,标签覆盖的用户比例(覆盖的广度)、覆盖用户的人均标签数(覆盖的密度)。覆盖率既可以对单一标签计算,也可以对某一类标签计算,还可以对全量标签计算,均有意义。

用户覆盖比例:coverage=\frac{\vert U_{tag}   \vert }{U} ,U表示用户数。人均标签数:average = \frac{\sum_{i=1}^n tag_{i} }{\vert U_{tag}  \vert } , tag_{i}表示每个用户的标签数。

时效性,如兴趣标签、出现轨迹标签等,一周之前的就没有意义了,如性别、年龄等,可以有一年到几年的有效期。对于不同的标签,需要建立合理的更新机制,以保证标签时间上的有效性。

用户画像的使用

一般需要一个可视化平台,对标签进行查看和检索。此外,我们还可以使用不同维度的标签,进行高级的组合分析,产出高质量的分析报告

3、用户实时风格偏好建模

建模标签明确,用户偏好的商品风格,建模流程如下图:

标签产出的建模流程如下图,使用基于user-商品原始统计为基础的topic model解决方案(PLSA、LDA、人工review topic下的词)。

在此基础上,增加性别、年龄段、购买力(收藏、购买、点击商品的简单统计+协同过滤)等预测类标签,增加维度进行更加准确的个性化推荐。

本案例作者也进行了新品投放方面的应用,值得借鉴,我的理解其实就正反两面,好的客户找到对应的特殊标签,分析来源渠道、广告响应等,有了数据再进一步迭代提高预测准确度;坏的客户就切断渠道,做规则拒单。

4、消金逾期客户画像

基本相当于数据分析,从不同维度去观察客户的占比、逾期率、首逾率、不良率。

以征信认证逾期为例,可以看到分布及逾期情况是否与业务预期一致,如存在差异则需及时调整贷前风控策略。本平台借款额度低、期限短,一般人不会为了这种贷款去打印人行征信,如果提供了人行征信,客户多头借贷、中介包装风险较高,建议着重审核,数据表现也与业务理解一致。

5、客户画像中常用的AI算法

主要是NLP,分词、实体识别和词性标注同属序列标注问题,是基础工作。主题模型(Topic Model,LDA等,取代传统的聚类方法)、TF-IDF、Word2Vec(Embedding方法,可为每个词学习到一个稠密向量)等,得到了如标签(关键词、分类)、主题、嵌入向量(都可以理解为特征)。如果把用户对物品的行为,消费或者没有消费看成是一个分类问题,用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就是特征选择的问题。

TF-IDF ,词频(Term Frequency),逆文本频率指数(Inverse Document Frequency),TF表述的核心思想是,在1条文本中反复出现的词更重要。而IDF的思想是,在所有文本都出现的词是不重要的,IDF用于修正TF所表示的计算结果。

TFIDF = \frac{词语在该文本出现的次数}{该文本的总次数}*log(\frac{文本总数}{出现该词语的文本数+1} )

TF-IDF用于生产用户的偏好标签,可计算得到某个词语(标签)对用户的权重,并找到相似的用户。同时可进一步引入行为类型(订单未支付、已支付未退款、已支付已退款等状态)、行为次数和时间衰减(牛顿冷却定律)的权重,调整标签权重。

三、经验与建议

想清楚客户画像的应用场景(做好顶层设计,才能有效控制投入资源,否则是无底洞)、支撑客户画像的数据源(数据的可得性、数据的标准化、数据统计口径的统一等)、效果评估与业务应用价值的闭环。

附,参考资料

1、【干货】基于知识图谱的用户理解,https://zhuanlan.zhihu.com/p/54834467

2、[干货]如何构建用户画像,http://www.woshipm.com/pmd/107919.html

3、干货请收好:终于有人把用户画像的流程、方法讲明白了,https://zhuanlan.zhihu.com/p/52756026

4、Spark机器学习进阶实战,马海平著。

5、用户画像-实战案例,https://zhuanlan.zhihu.com/p/36395328

6、构建用户画像中所用到的AI算法,https://mp.weixin.qq.com/s/2cxhcz9k6N3cTslVRScVlA

7、网贷用户画像及不良率分析,https://zhuanlan.zhihu.com/p/153338705

推荐阅读更多精彩内容