连载 | 4.1 富集数据资源

欢迎大家来到第四章,富集数据资源

我会为大家介绍什么叫做富集资源以及富集哪些资源。

image
  • 概述

首先,富集词典词槽。这是指需要收集到任务完成的关键词和关键要素。类似电影院、所有的App名称、航班信息,都叫词典词槽。这些需要我们尽可能多的收集到。

其次,富集对话样本,对话样本是真实的业务场景中的对话集合。

最后,富集问答对,问答对是真实业务场景中的问答集合。

如上是需要要富集的资源。

接下来为大家简单介绍富集的三种方法:

第一,从指定业务场景中提取数据;

第二,从对话的日志中抽取相关数据;

第三,去网上收集。如电影名称、电影院名称等,这些有官方的数据库,可以直接下载,其他没有数据库的,可以去垂直的社区论坛上爬取。

image
  • 富集词典词槽

什么叫做富集词槽词典?简单来说,就是获取更多实体编辑数据。例如,当你要做一个打开手机App功能的机器人,如果你收集了所有常用的App名称,识别的准确率会更高。富集词槽词典有一个通用的标准,每一个词槽关键词,至少要标出3到5个相关的关键词。

换句话解释:

词典+规则+预置词槽=你的词槽

UNIT里已经预置了很多的词槽,帮助各位省去了官方数据库下载和垂直网站爬取的工作量。

image

富集词槽词典的原则是:

1. 尽量复用系统的预置词槽

2. 使用自定义词典,规则主要是补充用的,因为我们自定义的词槽可能未必有百度预置的词槽更全。

有以下3个技巧:

  1. 自定义词典、规则的优先级高于系统内置。

2. 自定义词槽之间的优先级相等。如果一个词属于多个词槽,相应的,需要识别出多个词槽候选。

3. 规则的形式是正则表达式,注意控制通配符的范围,善用捕捉功能加以限制。

考虑到很多读者并不是程序员,也不知道什么叫做正则表达式。所以在这一章,简单介绍下正则表达式。

image
  • 正则表达式介绍

正则表达式描述了一种字符串匹配的模式,用来检查一个串是否含有某种子串,将匹配的子串替换,或从某个串中抽取符合某个条件的字串等。

上述描述是一个很官方的定义。

简单的来说,正则表达式用一种模版去匹配一句话里边是否有符合这个模版的东西,并把它抽取出来。正则表达式非常复杂,有非常多的通配符,这里只介绍了两个:

1. 问号: 问号匹配字符串中的零或一个字符

2. 星号:星号匹配零个或多个字符。

如图所示,一个正则表达式将要匹配图中所示的文件。\w代表任意一个字母或数字或下划线,问号匹配零或一个字符,所以可以看到它都可以匹配。*匹配零个或多个字符,所以我们看到这些也都是可以匹配的。

更多的正则表达式信息,各位可以到官网了解更多。

如上,读者可以知道富集词槽词典涉及到正则表达式的时候,该如何去使用。

image
  • 富集对话样本 & 问答对

富集对话样本和问答对是为了获取更多的可标注数据的条目。比如聊天数据或问答数据。在社交媒体、论坛、问答社区等都可能包含这类数据。

富集的标准:通常情况下,标注100个对话样本,就可以进行基本训练。当数据达到1000个的时候,基本上整个系统就已经达到了可用的标准。UNIT提供了一个很好的功能——对话样本集,有学习模式和训练模式,输入对话样本,UNIT可以自行录入,并且可以在这里进行简单的标注。后面会在实操的时候给读者做详细讲解。

image
  • 标注对话模版

当开始搭建聊天机器人的时候,通常情况是没有真实的样本和问答对的。因为机器人还没有上线,开发者一定不知道用户如何去和Bot进行交互。这个时候是很难找100个对话对的。

要解决上述问题,标注对话模版是一个很实用的功能。先搭建一个对话模版并上线,上线后再进一步积累真实的对话样本数据,再进行数据富集,是一个很好的冷启动方法。

对话模版是一种快速生效的工具,开发者可以根据训练集抽象高质量的模版提升效果。如果模版标准比较高,有的时候也可以直接拿来做训练。上图是UNIT上对话模版列表的一个配置界面,之后在实操课程里会进一步给大家解释。

image
  • 数据后续处理

富集数据资源还有一个很重要的步骤是数据的后续处理,这个分为三块:

第一块是数据清洗,使用正则表达式等工具,将没有用的数据区去掉,比如语气词”啊“,”哎“等,或者人名,电话号等敏感信息。

第二步是数据标注,部分数据需要后续的人工标注才能使用。包括意图分类、领域分类,槽值与实体的标注等。

第三块是数据变形,通过对特定数据的变形处理,可以兼容更多场景。比如常见的文本资料里经常会出现中文标点和英文标点混合使用的情况。可能出现“地、的、得”被混用的情况,应该尽可能的做一些合理的数据变形,使得机器能够识别更多的内容。

如上,给大家介绍了一下富集数据资源,这节课就到这里,谢谢大家!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容