知识图谱笔记 3 知识抽取与挖掘(上)

知识抽取任务定义和相关比赛

知识可以来自于关系型数据库、外部的开放知识图谱的数据、客户的日志等结构化数据以及表格、关键词、引用等半结构化数据和文本数据、多媒体数据等非结构化数据。

Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application 

知识抽取技术:

从不同来源、不同结构的数据中进行知识提取,形成知识存入到KG

实体抽取

关系抽取

事件抽取

从结构化数据库中获取知识:D2R——复杂表数据的处理

从连接数据中获取知识:图映射——数据对齐

从半结构化(网站)数据中获取知识:使用包装器——方便的包装器定义方法,包装器自动生成、更新与维护

从文本中获取知识:信息抽取——结果的准确率与覆盖率

子任务:

命名实体识别:检测/分类

术语抽取:从语料中发现多个单词组成的相关术语

关系抽取:特定指二元关系

确定触发词->根据触发词下特定的槽抽取宾语

共指消解(主语的确定)

比赛:

MUC:

正规文本抽取

命名实体识别——NER

共指消解——CR

ACE:

对MUC融合、分类、细化

实体检测和识别——EDR——细化了实体分类(person/organizations.....)

数值检测与识别——VAL(百分比/钱/邮箱.......)

事件表达检测与识别——TERN

关系检测与识别——RDR

事件检测与识别——VDR

KBP:

对ACE的进一步修订

实体发现与链接——EDL——需要知识库中唯一URL去链接实体

槽填充——SF——事件/多元关系抽取,对于谓语填充主语和宾语

事件抽取——Event

信念和情感——BeSt——抽取知识的额外描述

整合任务:端到端冷启动知识构建——对数据层进行学习和扩充

SemEval:

国际权威的词义消歧评测

一、面向非结构化数据的知识抽取

1、实体抽取:

抽取文本中的原子信息元素(person/organizations.....)

序列标注方法:

人工特征(词本身的特征/前后缀特征/字本身的特征)

IOB标注体系:O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)....

HMM:隐马尔科夫模型——有向图模型/生成式模型/假设特征之间是独立的

CRF:条件随机场——无向图模型/判别式模型/没有关于特征之间是独立的

LSTM+CRF:深度学习和机器学习相结合

word embeddings->Bi-LSTM encoder->CRF Layer

实体识别与链接:

小白,我想听一首海阔天空(应对新兴实体)->rdf:type MuisicWork(处理大规模细粒度实体识别)->找到音乐KG中的内容->执行消歧->完成链接

文本->实体指称识别->候选实体生成->候选实体消歧->链接

开源工具:

Wikipedia Miner

DBpedia Spotligth

OpenCalais

2、关系抽取:

信息抽取研究领域任务之一,从文本中抽取两个或多个实体之间的语义关系

抽取元组->清理->融合->人工审核->KG

基于模板:

基于触发词的Pattern

基于依存句法分析的Pattern:以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定

监督学习:

确定实体对之后根据上下文对实体关系预测

轻量级特征——字

中等量级特征——词组

重量级特征——句


Pipeline:

实体识别与关系分类完全分离(串联)

CR-CNN(卷积神经网络)

词向量和位置向量作为输入

F1=84.1

Att-CNN

调整权重

应用注意力机制,针对不同关系优化

F1=88.0

Att-BLSTM

输入层->embedding层->LSTM层->注意力层->输出层

Joint Model:

实体识别与关系分类的过程共同优化(并联),实现全局的最优化,但是参数空间会变大

LSTM-RNNs

Bi-LSTM->Bi-TreeLSTM(依存关系->依存树)->PHYS

半监督学习:

存在语义漂移

远程监督:

从知识库中抽取存在的关系的实体对->从非结构化的文本中抽取含有实体对的句子作为训练样例

PCNNs

piecewise max-pooling:实体分为几段做maxpooling,刻画更精准

多实例学习:找到处理句中实体同时出现且句型相似的句子做句子级别的Attention

Bootstrapping

可以去学模板

给定种子集合->发现Pattern->利用冗余性进行频率统计->归纳Pattern->将抽取出的Pattern去文档集中匹配->根据Pattern抽取出信的文档如种子库、迭代直到收敛为止

3、事件抽取:

多元关系抽取

事件描述->事件触发->事件元素->元素角色

事件嵌套:

事件会发展,有跟踪后续

通过更大事件集合嵌套小事件

pipeline

事件识别Trigger Classifier->元素抽取Argument Classifier->属性分类Role Classifier->可报告性判别Reportable-Event Classifier

性能会衰减

Joint Inference

构建n个模型,集成学习

max(f1+f2+...+fn)

避免性能衰减

Joint Modeling

多任务学习,共享底层特征

避免性能衰减

动态多池化层

扩充语料:

FrameNet/从网络获取事件信息(多源整合获得完整信息)

二、面向结构化数据的知识抽取

关系数据库——shema+mapping——>KG

W3C标准Mapping languages:R2RML

工具:D2R/Virtuoso

直接映射direct mapping

关联类别->每一行形成三元组->外键对应

没办法灵活定制

R2RML

OnTop

三、面向半结构化数据的知识抽取

有一定结构且相对好抽取

百科类知识抽取:

DBpedia

基于Wikimedia抽取

Generic Infobox Extraction(同义属性不做映射)/Mapping-based Infobox Extraction(二次处理,属性对齐)

Web网页数据抽取:包装器生成

手工方法:

XPath表达式(XML路径语言)/CSS选择器表达式

手工方法/包装器归纳/自动抽取->生成包装器->输入网页->输出需要的信息

包装器归纳:网页输入->网页清洗->网页标注->Wrapper Space生成->Wrapper评估->输出包装器

包装器评估:准确率/召回率

自动抽取:

包装器训练/包装器应用

页面比较后替换->形成包装器

RoadRunner

Web tables

表格实体消歧:位于相同行/列的字符可能相关,可以去做联合的消歧

在线知识抽取:

Category(人工观察分类)->命名规则方法->主语融合(同名不同实体/同实体不同名)->谓词融合->宾语融合(单值属性/多值属性)->对infobox补全

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容

  • 1 知识图谱构建技术 本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技...
    达微阅读 33,254评论 2 32
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,099评论 18 139
  • 我带着那颗纯真的心向你走去 温火 热焰 及寒冰 我笑那水中的倒影没出息 水一晃她便面目全非 水一止则令人心动 那饱...
    小辣椒0阅读 230评论 0 7
  • 早上完成了几个水彩小物的绘画,一张画纸总算画满了。对于迷恋于生活的色点滴美好的我来说,能有这样的时间去做点自己喜欢...
    沙漠里的胡杨v阅读 668评论 0 6
  • 通过下面处理方式,可以避免重新下载数据库。 第一步:找到印象笔记数据库的位置 1.0 工具 → 选项 2.0选项 ...
    Yingboy阅读 1,083评论 0 0