敏感词匹配算法记录

记录做敏感匹配算法的过程。

介绍

敏感词屏蔽是很多内容网站都需要做的事情,而根据公安提供的敏感词列表,具体格式如下:


20190410105359

从上图可以看出,敏感词分为三类:动词名词专属词语,三种敏感词匹配的方式也有些不同。

专属词语是只要出现就需要屏蔽,例如:今天中午我不知道吃什么了。如果中午是一个专属敏感词的话,那么这段话中的中午就需要被屏蔽掉了。

动词名词是需要组合才能进行匹配的,并且同一分类下的动名词都可以进行组合,如前面的图中就能组合出:动词1名词1动词1名词2动词2名词1动词2名词2....,匹配的方式则是组合起来之后和专属敏感词一致,而组合之后的敏感词个数则是:动词个数V * 名词个数NV * N)。

说到这里,可能很快就会得出一个解决方法。

#1

由于动名词最后的匹配方式是将动词和名词组合起来再进行匹配的,那么我们可以将所以分类的动名词组合起来,然后放入缓存中,这样就能大大节省在匹配敏感词的过程中进行重复组合动名词的开销。而根据公安提供的词库,最终得到的敏感词个数为:40k+,其中专属词:5.3k,动名词组合:40k,那么此时的敏感词列表格式如下:

['专属词1','专属词2','专属词3'....,'动名词组合1','动名词组合2','动名词组合3'....]

匹配算法如下:

public List<string> MatchingSensitive(List<string> senlist, string txt)
{
    var returnlist = new List<string>();
    foreach(var item in senlist)
    {
        if(txt.IndexOf(item))
        {
            returnlist.Add(item);
        }
    }
    return returnlist;
}

以上这种方式虽然很简单的就能匹配出铭感词,但是性能极差,即使我们已经将所有的动名词组合放入缓存中,省去了一部分的计算开销,但是敏感词的数组大小却依然是40k+的大小,也就意味着每次都需要循环40k+次才能校验完成。并且以上代码使用了IndexOf默认方法,性能远不如Contains,具体原因可以去看看IndexOfContains的源码,所以我们需要把上面的代码改为:

public List<string> MatchingSensitive(List<string> senlist, string txt)
{
    var returnlist = new List<string>();
    foreach(var item in senlist)
    {
        if(txt.Contains(item))
        {
            returnlist.Add(item);
        }
    }
    return returnlist;
}

现在这种方式虽然在性能上有提升,但是时间复杂度依然没有降低。我们再回过来仔细看这张图


20190410105359-1

我们将所有的动名词进行组合的时候,即是对所有的敏感词进行了全量的匹配,但是真的需要这么做吗?如果将匹配的拆分为原来的动名词的话,匹配的过程如下图:


20190410114200-2

按照我们之前的全量匹配,B4会和A1A2A3A4...D4都进行匹配,但是在拆分动名词的情况下,B4没有包含A,视乎根本没有必要再和A1进行匹配,因为A包含于A1A2A3...,若B4不包含A,即B4也不包含A1A2A3...,同理B4若不包含C,也就不会包含C1C2C3...。那么这样的话,匹配过程如下图:

20190410114201-1

#2

根据上面的结论,如果匹配内容不包含动词,那么就无需匹配当前动词和名词组合的敏感词,所以缓存的铭感词列表数据结构需要更改为如下:

[
    { 
        "CategoryName":"分类1",
        "SensitiveList":["专属敏感词1","专属敏感词2"...],
        "VerbList":
            [
                {
                    "Word":"动词1",
                    "CombList":["动词1名词1","动词1名词2","动词1名词3"...]
                },
                {
                    "Word":"动词2",
                    "CombList":["动词2名词1","动词2名词2","动词2名词3"...]
                }
            ]
    },
    { 
        "CategoryName":"分类2",
        "SensitiveList":["专属敏感词1","专属敏感词2"...],
        "VerbList":
            [
                {
                    "Word":"动词1",
                    "CombList":["动词1名词1","动词1名词2","动词1名词3"...]
                },
                {
                    "Word":"动词2",
                    "CombList":["动词2名词1","动词2名词2","动词2名词3"...]
                }
            ]
    }
]

CategoryName 分类名称
SensitiveList 专属敏感词
VerbList 动词列表
CombList 动名词组合列表

代码如下


public class SenEntity
{
    public string CategoryName { get; set; }
    public List<string> SensitiveList { get; set; }
    public List<SenVerbEntity> VerbList { get; set; }
}

public class SenVerbEntity
{
    public string Word { get; set; }
    public List<string> CombList { get; set; }
}

public List<string> MatchingSensitive(List<SenEntity> list, string txt)
{
    List<string> senlist = new List<string>();
    foreach(var sen in list)
    {
        //专属敏感词匹配
        foreach (var senstr in sen.SensitiveList)
        {
            if (txt.Contains(senstr))
            {
                senlist.Add(senstr);
            }
        }

        //动词匹配
        foreach (var verb in sen.VerbList)
        {
            // 如果匹配的内容中包含了动词
            if (txt.Contains(verb.Word))
            {
                //进行下一步的动名词组合匹配
                for (int i = 0; i < verb.CombList.Count; i++)
                {
                    var combstr = verb.CombList[i];
                    //如果匹配存在动名组合词
                    if (txt.Contains(combstr))
                    {
                        //添加动词
                        senlist.Add(verb.Word);
                        //添加名词
                        senlist.Add(combstr.Replace(verb.Word,""));
                    }
                }
            }
        }
    }
    return senlist;
}

这样一来,遍历的数组长度将大大减少,时间复杂度也得到了降低,但是这就是最好的办法了吗?
我们来看一下现在匹配过程:


20190410114202-1

当前的数据结构由于对敏感词进行了分类,所以在匹配的时候最多会出现三层循环,并且其中不同的分类中间可能存在着相同的动词,这些数据的结构是冗余的。

#3

为了保证敏感词只匹配一次,并减少循环的复杂度。我们可以将数据结构改为如下:

专属敏感词,字典存储,key为专属敏感词

{
    "专属敏感词1" : "",
    "专属敏感词1" : "",
    ....
}

动词和动名词组合,字典存储,key为动词

{
    "动词1" : ["动词1名词1","动词1名词2",,"动词1名词2"...],
    "动词1" : ["动词1名词1","动词1名词2",,"动词1名词2"...],
}

原本的数组结构都改为了字典,使用字典可以保证专属敏感词或者动词不会因为在不同的分类中出现重复,这样可以简化数据的结构,并且使用两个字典来存储专属敏感词动名词,将可以将匹配的循环缩小到两层,降低匹配过程中的时间复杂度。
匹配的代码如下:


public List<string> MatchingSensitive(Dictionary<string,string> sensitiveDic,
Dictionary<string,List<string>> verbDic, string txt)
{
    List<string> senlist = new List<string>();
    //专属敏感词匹配
    foreach(var sen in sensitiveDic.Keys())
    {
        if (txt.Contains(sen))
        {
            senlist.Add(sen);
        }
    }

    //动词匹配
    foreach (var verb in verbDic.Keys())
    {
        // 如果匹配的内容中包含了动词
        if (txt.Contains(verb))
        {
            var combList = verbDic[verb];
            foreach(var comb in combList)
            {
                //动名词组合匹配
                if (txt.Contains(comb))
                {
                    senlist.Add(comb);
                }
            }
        }
    }

    return senlist;
}

匹配的过程如下图:


----_20190410151350-1

以上就是对敏感词匹配过程的理解,启发于降低时间复杂度这一词,如有更好的方法,欢迎在下面留言。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 144,247评论 1 305
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 61,830评论 1 258
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 95,531评论 0 214
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 41,345评论 0 183
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 49,160评论 1 260
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 38,936评论 1 178
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 30,538评论 2 275
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,291评论 0 168
  • 想象着我的养父在大火中拼命挣扎,窒息,最后皮肤化为焦炭。我心中就已经是抑制不住地欢快,这就叫做以其人之道,还治其人...
    爱写小说的胖达阅读 29,162评论 6 237
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 32,654评论 0 214
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,401评论 2 217
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 30,747评论 1 232
  • 白月光回国,霸总把我这个替身辞退。还一脸阴沉的警告我。[不要出现在思思面前, 不然我有一百种方法让你生不如死。]我...
    爱写小说的胖达阅读 24,297评论 1 33
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,206评论 2 213
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 31,670评论 3 213
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,661评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,089评论 0 169
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 33,677评论 2 233
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 33,819评论 2 237

推荐阅读更多精彩内容