P2P深度透视 OMNIRank 平台风险量化

问题背景##

互联网金融2007年进入国内,2013年得到了蓬勃的发展。与此同时,也出现了很多问题平台诸如提现困难、老板跑路、停业等。截止2016年3月,在国内近4000家P2P平台中,问题平台比例已接近40%,投资者的资金难以得到保障。投资者希望知道自己的资金放在哪里最安全?投到哪个平台最有安全保障?这正是我们产品要解决的核心问题—客观精确地对P2P平台进行风险量化

P1.jpg

我们对出现问题的P2P平台做了分析,可能的原因归结为两条:

  1. 先天基因能力不足:如创始团队缺乏过硬技术与运营经验、注册资金过少难以承受突发危机等;
  2. 后天发展存在问题:如过分抬高利率导致难以向投资者兑现、过度追求利润而忽视了风险控制等。
P2.jpg

根据以上的分析,我们选取以下四大类的特征作为平台风险的量化依据,包括:静态特征与动态特征两部分。其中静态特征对应于平台先天基因,包括平台的基本属性,例如注册资金、所在城市、担保机构等;动态特征对应于平台的后天发展,包括平台的各项指数、新闻舆情、用户评论等信息。

P3.jpg

系统架构##

下面是我们的系统架构,首先使用网络爬虫获取多源异构数据,解析得到结构化数据。通过数据清洗将结构化数据整理成我们的数据资产。在此基础上我们使用文本处理、主题模型、知识图谱、情感分析等技术分析数据资产,挖掘其中的内在规律。之后我们提出核心模型—OMNIRank,对各个P2P平台进行风险量化,形成知识供投资者决策。最后,我们将数据分析、模型量化的结果进行可视化,为投资者提供友好的交互界面。

P4.jpg

数据源选择##

为了全面获取各个P2P平台的信息,我们选择了客观的新闻门户、主观的民意评论、权威的网贷社区和平台官方平台网站作为数据源,从各个维度了解平台,为后续分析打下基础。

P5.jpg

数据获取##

我们基于Scrapy开发了爬虫框架OMNISpider,它可以:

  1. 分布式可扩展:集成Redis、Hadoop,部署于上海交通大学网络信息中心,支持更多数据源的并发爬取;
  2. 灵活配置:通过修改配置文件即可添加新的任务或更新已有任务,无需重构代码。

只需简单的配置,既可以通过调度、爬取、解析、存储模块在短时间内爬取海量的多源异构数据。

P6.jpg

数据清洗##

下图是我们的数据清洗过程。我们对爬取的结构化数据进行了数据去重、空值处理、数据去噪、格式统一、对齐融合。

P7.jpg

数据资产##

经过数据的清洗与融合,我们得到了数据资产。据不完全统计,我们的数据资产包括27万余条新闻8万多条P2P相关的微博和评论3050家P2P平台的基本信息3年来各平台指数月评级数据。为了持续地扩充数据资产,我们把数据存放在Hadoop分布式文件系统(HDFS)中。

P8.jpg

数据分析##

在此基础上,我们希望进一步得到与平台风险有关的信息。首先是文本处理,使用分词技术对新闻文本、用户评论文本等进行分词与词性标注,用Word2Vec技术将词语训练为高维向量,从而更好地表示地词语间的相互关系以及其中蕴含的语义。

P9.jpg

在理解文本的基础上,我们使用LDA模型对新闻进行处理,生成5个主题,每个主题取权重前7的词语作为关键词。通过各个平台在不同主题上的新闻分布规律和变化趋势,我们可以对平台进一步地理解,并了解整个行业的最新热点。

P10.jpg

我们对语义信息、主题信息进行整理,经过命名实体识别、关系抽取、开放域知识提取技术,形成了一个包含1万多个结点的知识图谱。为了提供更快的查询服务,我们将它存在图数据库中。投资者可以进行知识探索,更加全面的了解各平台、人员、职位、地理分布之间的联系。

P11.jpg

为了更进一步理解平台口碑,我们对新闻以及用户评论数据做情感分析,判断出整个行业,以及各个平台的舆论倾向,并以天为粒度进行统计,便于投资者全面了解行业,进行投资决策。

P12.jpg

OMNIRank模型##

经过以上数据资产的准备及探索分析,我们提出我们的核心模型OMNIRank,一个对P2P平台进行风险量化,为投资者提供投资决策的模型。Google开发了人工智能AlphaGo。它是一个会下围棋的人工智能。它采用全局特征和局部特征结合的思想,主要方法是深度神经网络。

P13.jpg

OMNIRank是一个对P2P平台风险量化的人工智能,它的本质是一个深度神经网络。模型输入5大类共118个特征,包含全局的静态特征、局部的动态特征。结合各个特征特点及神经网络模型的优势,我们设计了OMNIRank深度神经网络:

  1. 使用多层神经网络(MLP)处理静态平台属性特征;
  2. 使用长短时记忆元(LSTM)处理动态平台指标时间序列;
  3. 使用卷积神经网络(CNN)处理新闻、评论文本数据。

就像AlphaGo可以进行自我对弈一样,OMNIRank可以通过反馈回路自我学习,不断提升模型的能力。

P14.jpg

下图展示了OMNIRank模型对平台风险量化的效果。我们在近半年的数据集上进行了验证,使用两个指标对模型性能评估:准确率和AUC值。其中准确率表示模型把平台分类正确的比例;AUC是模型对正负样本区分程度的量化评估。准确率与AUC值越高,表示模型效果越好。可以看到,半年来,模型对平台判断的准确率与AUC值呈上升趋势,并且在最近的一个月(2016年4月)的评估中,准确率达0.85AUC值达0.9以上

P15.jpg

为了更直观地呈现模型效果,我们展示了OMNIRank模型对正常平台和问题平台的风险辨识。OMNIRank对一个平台评分越高,表示这个平台越可靠,风险越低。下图是2016年4月对各个平台的评分分布,正常平台集中在1附近,问题平台集中在0附近,可见OMNIRank成功地将问题平台与正常平台区分开。

P16.jpg

我们将OMNIRank与其他机器学习算法,包括逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)进行了对比,对比结果如下图所示。我们发现,比起其他模型,OMNIRank可以更加显著地区分正常平台和问题平台,它具有更强的能力识别出问题平台。因此OMNIRank对平台风险的量化比传统模型更加可靠。

P17.jpg

OMNIRank是如何帮助投资者选择投资平台的呢?我们每个月使用OMNIRank对平台风险进行量化预测,并根据量化结果对平台排名,排名越靠前表示该平台下个月出现问题的概率越低。之后计算在不同排名区间的平台,在下个月实际出问题的比率。我们发现,半年来排名前100的平台没有出现问题,这给投资者提供了一个安全的投资区域。另外,区间越大,平台的平均利率越高,但同时也伴随着更高的风险。投资者可以根据自己的自身情况,平衡风险与收益,选择最适合自己的平台。

P18.jpg

数据可视化与交互##

我们设计了数据可视化与交互展示产品。通过这一产品,投资者既可以对整个行业的有所了解,又可以对每个平台详细研究,还可以进行不同平台之间多个维度的对比。此外,我们还专门为投资者设计了懒人选投功能,告诉我们您的需求,我们就会给您推荐合适的平台。更丰富的产品信息,请访问我们的产品设计网站。

产品展示 : http://zhanghonglun.cn/ppd/

P19.jpg

开源数据与代码##

我们会开放全部的工作,包括可视化代码、OMNIRank模型代码,清洗后的数据,供大家参考、验证、改进,欢迎交流切磋。

P20.jpg

关于我们##

我们上海交通大学OMNILab的博士研究生,指导教师是金耀辉教授。

P21.jpg

玩数据,我们是认真的~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容