Google知识图谱--数据建设篇

96
高天蒲
0.6 2016.01.23 05:20* 字数 987

上一篇,介绍了Google知识图谱应用的三个核心逻辑,在这三个大框架下,产品形态一直没太大变化,Google将更多的精力放在了知识图谱的数据建设上。我们从已知的媒体公开报道中可以总结出以下三条路子:

  1. 众包模式

2010年7月,Google宣布收购MetaWeb公司(Deeper understanding with Metaweb ),MetaWeb的开放共享知识库Freebase归入Google旗下。

Freebase

Freebase是一个允许任何人创建、修改、查询的知识库,这就是常说众包模式。维基百科是这类模式的鼻祖,但跟维基百科不同的是,Freebase里面存储的不是大段的文本,而是结构化良好、机器也可读的数据格式。

2015年,Google又宣布将逐步关停Freebase, Freebase原有的数据迁移至WikiData. 而WikiData是Wikipedia基金会的一个知识库开放项目,和Freebase在本质上是一样的,都是利用众包模式维护一个开放的知识库。至于说Google为什么这么做,我就不得而知了,猜测背后会有一些生态、法律的原因要考虑。

Audrey Hepburn在Wikidata中的页面

无论是Freebase还是WikiData, 目前的知识库建设仍然是比较依赖众包模式的。建设这样一个众包平台,就需要考虑诸如数据获取、数据清洗、不同数据源的融合、实体之间建立起关联关系,统一入知识库等问题,这是整个知识图谱建设中最基础的一环,如果一开始这个架构没有搭好,后续会有很多问题。

留个问题在这里:什么样的人或组织会向WikiData贡献数据,动机会是什么?

2.推广语义网标准

如果网站的开发者能够将网页中出现的实体、实体属性、实体关系,按照某种约定的规则做上标记,Google等搜索引擎的爬虫就能很方便的获取到这些有价值的数据,从而可以达到扩充知识图谱数据的目的。所以Google针对站长做了一套专题页,用来介绍和推广这套玩法:
https://developers.google.com/structured-data/ (需翻墙)

推广的标准就是schema.org (需翻墙),由国外几个大的搜索引擎公司参与制定的规范,现在已经提交给W3C,感兴趣的读者可以到该站点做详细了解。

网站开发者为什么要多此一举的加上额外的数据标签,当然是希望能从Google那里获得流量和品牌展示。举例来说,站长可以将自己的企业logo,联系方式、社交网络账号,还有一些诸如电影播放链接、产品描述、本地服务商信息等。

企业logo、电话、社交帐号等在知识图谱上展示

3.机器挖掘
2014年8月,国外网站newscientist报道, Google有一个叫Knowledge Vault的知识库,可以通过机器学习将数据变成可理解的知识。 工作机制、算法原理什么的绝对是个秘密了,只能靠一些零散的报道推测。后续随着基础知识库的扩大,算法的改进,自动获得知识的效率会越来越高、质量也会越来越高。

机器学习,自动挖掘知识是未来一个方向。但是,合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。咱还是先详细了解下这个众包模式是怎么玩的。

下一篇,WikiData体验报告。

人工智能-AI