n-gram模型创建与分析

n-gram模型:在自然语言里有一个模型叫做n-gram,表示文字或语言中的n个连续的单词组成序列。在进行自然语言分析时,使用n-gram或者寻找常用词组,可以很容易的把一句话分解成若干个文字片段。摘自Python网络数据采集[RyanMitchell著]。

1.string.punctuation获取所有标点符号,和strip搭配使用

string.punctuation实例

2.operator.itemgetter()operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号)

operator.itengetter实例

3.n-gram在模型创建与分析中实现:

     1).作为基本过滤器对文本数据进行过滤,获得本文字中出现频率不低于3次的2-gram序列

基本过滤器

  2).对获取的文本文件进行数据清洗,如:移除转义字符(\n)、过滤Unicode字符等

数据清洗

    3).将一个待处理的字符串分成单词序列,然后增加到n-gram模型里形成以每个单词开始的二元组

n-gram模型创建

4.完成后的最终效果

核心词及该词所在文中语句

推荐阅读更多精彩内容