使用有向无环图实现分词

结巴分词

如果搜索”Python 分词”,跳出来的前五个除了广告基本都包括“结巴分词”(Jieba)。可以说它是Python自然语言中使用最广泛的分词工具。它属于基于概率的模型,其原理主要是利用了显性的中文词库(包含常用词及词性和频率)。形如:

同时也支持隐马尔可夫模型从数据中训练出的发射概率,转移概率等不易理解的数据。

简单地说,分词就是识别句中的词组,然后把句子拆分成尽量大的块。但由于上下文语境不同,拆分时也常常出现规则冲突,比如“研究生命的起源”,既可拆成“研究生 命 的 起源”,也可拆成“研究 生命 的 起源”。因此,需要制定一些规则处理这些冲突。

和当前很多基于深度学习的自然语言模型相比,结巴轻量级,使用简单,原理不复杂,效果也不错的分词工具。利用结巴的原理,不仅能实现分词,还能实现切分短语,判断词性,计算短语在句中成份,提取特定成份等一系列的功能。与复杂模型相比,它更容易运用已知的规则,占用更少的资源,避免了大量的文本标注;与自己直接处理相比,它能处理更复杂的情况。尤其在某些语法相对单一的专门领域效果很好。

本文将分析结巴分词的核心代码,看看它是如何解决冲突,并学习有向无环图的数据结构如何在其中发挥作用。

创建有向无环图

结巴的核心代码在jieba/init.py文件中,先以“研究生命的起源”为例,看看它如何分词。

首先,进行get_DAG()函数构造一个有向无环图,具体方法是以句子的每一个字为开头(184行)能组成什么词。

函数返回的结果是字典DAG,其中每个元素都是位置的索引号:

“研”字可以单独成词,也可以和“研究”,“研究生”组合,这是一个开头三种结尾的情况0:[0,1,2];

“究”不能与后面的“生”组合成词,因此第1个开始位置只对应一个结束位置1:[1];

“生”字可以单独成词,也可以和“生命”组合,一个开头两种结尾2:[2,3]

后面的其它字以此类推。

我们将其中每个可能出现的词(含一字词和多字词)作为单个元素,组合成图,方向按文字从左到右,既有向且无环(如果同一个词出现在句子的不同位置也认为是不同元素)。可以得到以下图。

目标是找到一条从“开始”到“结束”的路径,且整体路径的权重之和最大,每一个点的权重是该词汇出现的频率(后面详述)。

这是一个非常简单的有向无环图DAG应用场景。定义了入口,出口,可用节点,节点权重和节点间可达的方向和关系。通过计算权重选择最佳路径(最佳子图)。

DAG有向无环图指的是一个无回路的有向图(如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环)。DAG可看作是树结构的扩展,所有的有向树都是有向无环图。

寻找最佳路径

下面来看看如何从多条可达路径中选取最佳路径,在结巴中由calc函数实现:

函数运行后,route内容填充如下:

句子包含七个字“研究生命的起源”,返回字典中的每个元素对应以每个位置为起点的最佳终点和分值,终点7也作为一个元素存入字典,其分值为0。具体实现方法是:

先设置终点7的值,加入字典(174行);

计算最高频率的log值logtatal,其中self.total是将字典中所有词汇的词频值加和(175行);

从后向前遍历句中的每个位置(176);

计算以每个字开头的最佳终点及分值:先遍历以该字开头所有可能的词(for x in DAG[idx]),计算其中分值最高的组,具体方法是用该词频率的log值减去一个非常大的词频logtotal,再加上该词之后路径的最佳分值(177-178行);

举个具体例子,对于第一个位置,有三种选择“研”,“研究”,“研究生”,这三词的词频不同,logtotal相同,其后路径的最佳分值也不同。“研”之后路径的分值是“1:(-32.3…)”,“研究”是“2:(-35.9…)”,“研究生”是“3:-(24.8…)”,而且log(‘研究’)又明显大于log(‘研究生’),因此将“研究”作为该位置的最佳选项。

划分词段

整体分词逻辑如下:

最终划分时非常简单,代码中使用yield实现了迭代器,看起来比较复杂。如果不考虑英文字母处理(代码中buf部分),简化后的逻辑是:从起始位置0开始,x为起点,y为以x为起点的最佳终点位置,取出该词作为正确切分,然后将结束点y作为新的起点,找下一词的最佳结束点,直至处理完句中所有句。

如本例中,第一次进循环x=0,y=1+1=2,则切出“研究”,然后赋值x=y=2;第二次循环时x=2,y=3+1=4,切出“生命”,然后赋值x=y=4;以此类推。

注意:此函数不包括隐马尔可夫链的逻辑处理,分词时需要加参数HMM=False,才能运行到该函数。

图结构就像树结构一样,其本身非常抽象,可以实现多种多样的功能。个人觉得只要了解其原理即可,用时再深入也不迟。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容