知识图谱在大数据反欺诈领域的应用与实践

1、为什么要用大数据来反欺诈?

近些年来互联网金融蓬勃发展,特别是P2P的兴起,颠覆了传统的银行贷款模式,给大众带来快速便捷的金融服务;在P2P行业中,借款端的风险是P2P公司面临的主要风险,而借款端的风控水平可以说决定了一家P2P公司的核心竞争力。

借款端风险的一个主要来源是欺诈风险,传统的反欺诈手段主要依赖于信息的人工审核,而身份证、手机号码、银行流水等材料的伪造成本非常低,各类信贷服务机构均不得不投入大量的人力用于核实信息主体的身份及其提供材料的真实性;在这种形式下大数据反欺诈成为了P2P平台提高风险控制水平的新思路。

大数据反欺诈,即是通过对数据的采集和分析,找出欺诈者的蛛丝马迹,挖掘其数据的矛盾点和可疑点,识别和预防欺诈事件的发生。大数据收集了大量异构、多样化的信息,包括可交叉验证信息主体所提供的信息以及第三方信息来源的真实性,尤其是对于第三方信息来源,信息主体想要进行长时间、全方位的伪造,非常困难,成本较高,并且事实上经常不可行,因此大数据具有较强的反欺诈能力。

2、面对的挑战

大数据反欺诈技术又可以分解为两个子问题,第一个问题是在用户的授权下如何收集用户的相关数据,包括去哪里收集和收集哪些数据,为此我们对接了大量的第三方数据提供商的系统,还在用户的授权下,利用网络爬虫抓取公开的互联网数据,从而不断完善和丰富数据集,增加覆盖维度;第二个问题是如何整合和利用已收集的数据解决反欺诈问题,由于数据来源多,数据异构碎片化,结构(structure)、半结构(semi-structure)和无结构(adhoc)数据共存,并且规模庞大增长迅速,因此这一过程的挑战在于如何整合异构的数据源,如何有效的利用已有的数据进行交叉验证。

为了应对这个挑战,我们利用图(Graph)的数据结构,将不同渠道的碎片化、异构数据整合成为机器可以理解的知识,构建了知识图谱(Knowledge Graph),借助规则引擎(Rule Engine),实现了欺诈的识别与防御。

3、知识图谱的概念

知识图谱是一种基于图的数据结构,其目的是将真实世界所存在的实体,知识以及概念等描述成机器可以理解的数据结构,将数据转化为知识;图的节点(Point)是真实世界所存在实体,由一个全剧唯一的ID来标识和索引,每个实体可以带有若干不同的属性(Property),用来刻画实体的特性,而图的边(Edge)则用来描述两个实体的关系,例如is-a关系,表示一个实体是另一个实体的一种,或是has-a关系,表示一个实体具有另一个实体,这样的关系都是用来刻画实体之间的关联关系。知识图谱可以看作一个巨大的网络,是由数据绘制出来的一张知识图。

知识图谱最先由Google提出(http://googleblog.blogspot.sg/2012/05/introducing-knowledge-graph-things-not.html),用于提升搜索引擎质量。举一个简单的例子,当我们用Google搜索“刘德华的老婆”时,Google返回了朱丽倩的信息,说明Google是理解了搜索框中的内容才进行的搜索,而不是简单的字符串检索,这就是一个知识图谱的应用场景。

4、知识图谱在反欺诈场景的应用

在反欺诈场景中,知识图谱聚合各类数据源,逐步绘制出借款人的profile,从而针对性质的识别欺诈风险。以一个借款人举例,借款人可以有身份证号,手机号,学历等个人信息,属于个人的属性信息;而借款人可以有担保人或是亲属好友,借款人与担保人之间的关系(也就是边Edge)是被担保与担保的关系,借款人与其亲属好友之间的关系是父亲、母亲、同事、同学等关系;借款人也具有住址,银行流水,工作单位等信息。这些信息可以来自于多个渠道,例如可以由借款人自己填写,或是积累的历史数据,或是数据提供商提供,或是在互联网上获得,甚至通过推理得到,往往具有冗余性;信息通过图的形式连结,展示出了借款人的profile。

4.1、识别数据造假

当融合来自不同数据源的信息构成知识图谱时,有一些实体会同时属于两个互斥的类别(例如同时在两个不同的城市工作),或某个实体所对应的一个Property(同一个人的住址)对应多个值,这样就会出现不一致性,这个不一致性即可判定为潜在的可疑点。

通过这种不一致性检测,我们利用绘制出的知识图谱可以识别潜在的欺诈风险。在P2P行业,欺诈风险主要的骗术包括个人信息造假、工作单位虚假、代办包装、虚假联系人、组团骗贷等。以识别数据造假为例,利用知识图谱我们可以通过借款人的身份信息PII(Personal Identify Information),例如手机号或是身份证号,直接索引到个人的全部信息,并以此与借款人的填写信息进行不一致性检测;也可以通过借款人的其他信息进行推理出其相关信息进行验证,举一个例子,我们可以通过借款人的身份证号和姓名可以获得他的学历信息和年龄,通过学历信息和年龄可以推算出其工作年限,再根据其所在城市,行业,职位,结合互联网上的招聘网站数据推理出其薪水范围,进而验证他的收入水平;甚至可以通过不同借款人之间的同事关系,验证其工作单位的真假。

4.2、组团欺诈和代办包装

除了对数据造假进行验证外,由于图结构带来的天然关联检索的特点,知识图谱可以识别潜在的代办包装或是组团骗贷。我们利用征信公司提供的欺诈数据,拥有的代办包装公司数据,互联网公开欺诈黑名单,行业黑名单联盟等数据开发了大量的标签数据,对实体(包括公司和人)贴上标签,例如逾期,虚假手机号,代办包装或是组团骗贷等标签,当借款人进行申请贷款时,如果我们发现他和bad people/company/info具有较多的关联关系,那么这个人有很大的可能是欺诈,从而识别出风险。

与搜索引擎的场景不同,知识图谱在反欺诈场景中具有较低的应用门槛,数据量较少时也可以进行低程度的交叉验证,而随着数据量的积累和增多,知识图谱也会越来越完善,其反欺诈能力也会越来越强。我们建立了名为”Matrix”的大数据反欺诈系统,在借款人提交借款申请开始即介入整个风控流程,对接多个数据源以获取借款人的数据信息,在各个环节建立checkpoint,通过可配置的规则引擎在各个checkpoint执行预定的逻辑,识别和防御欺诈风险。

结语

这篇文章介绍了点融网在大数据反欺诈领域的尝试与实践,比较系统的介绍了知识图谱技术在反欺诈领域的应用。知识图谱的构建离不开数据的积累,也需要知识库、自然语言理解、机器学习和数据挖掘等多方面知识的融合;知识图谱使得机器能够理解现实世界的实体和关系,正如Google所说,a “graph”—that understands real-world entities and their relationships to one another: things, not strings.

本文作者:程书欣(点融黑帮),现任点融网研发工程师,关注大数据风控技术,主导研发点融网反欺诈系统Matrix。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容