关键词抽取模型

TF-IDF算法实现关键词抽取

TF-IDF(term frequency-inverse document frequency)是一种用于咨询检索与资讯探勘的常用加权技术。
一种统计方法,用以评估一字词对于一个文件集或者一个语料库中的其实一份文件的重要程度。字词的重要性随着他在文件中出现的次数成正比地增加,但同时随着他在语料库中出现的频率呈反比地下降。
TF-IDF 存在自身算法缺陷:
如果某一个文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数位n=m+k,当m大的时候,n也大,按照IDF的值会小,就说明该词条t类别区分能力不强。
改进方法可以通过改变文档结构,比如将一类短文本归为一个文档,这样就可以增加TF值的同时,也增加IDF的值,但同时也会增加模型的计算成本。
(权重比值关系引起的模型失灵)

TextRank算法实现关键词抽取

TF-IDF对多段文本的关键词提取非常有效,但是对于单章或者文档分割较少的文本表现的不是特别好。
TextRank是一种基于图排序的算法,其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干个单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,尽利用单章文档本身的信息即可实现关键词提取、做文摘。
1. 基于TextRank的关键词提取
  关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:
1.把给定的文本T按照完整句子进行分割,
2.对于每个句子进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即保留候选关键词。
3.构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
4.根据上面公式,迭代传播各节点的权重,直至收敛。
5.对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
6.由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于候选关键词,则组合成“Matlab code”加入关键词序列。

cm = defaultdict(int)
   #切词
   words = tuple(self.tokenizer.cut(sentence))
   for i, wp in enumerate(words): #(enumerate枚举的方式进行)
   #过滤词性,停用词等
       if self.pairfilter(wp):
           for j in xrange(i + 1, i + self.span):
               if j >= len(words):
                   break
               if not self.pairfilter(words[j]):#过滤
                   continue
               #保存到字典中
               if allowPOS and withFlag:
                   cm[(wp, words[j])] += 1
               else:
                   cm[(wp.word, words[j].word)] += 1

对于单词之间的相似度的计算也是决定最终效果好坏的一个重要因素,对于单词的相似度计算可以采用基于编辑距离、语义词典、余弦相似度等传统方法,也可以采用基于Enbedding的方法,特别是目前基于深度学习的Word2Vec、skip-gram等算法的兴起,此类方法有了更好的效果和更加实用的工具。

基于语义的统计语言模型实现关键词抽取

一种基于LDA(Latent Dirichlet Allocation)的关键词提取算法
LDA模型包含词、主题和文档三层结构

IMG_4064(20181102-161551).jpg

原理
模型认为一篇文章的生成过程是:
先挑选若干主题,在为每个主题挑选若干词语。最终,这些词语就组成了一篇文章。所以主题对于文章是服从多项式分布的,同时单词对于主题也是服从多项式分布的。基于这样的理论,如果一个单词w对于主题t非常重要,而主题t对于文章d又非常重要,那么单词w对于文章d就很重要。

基于LDA主题概率模型的关键词提取方法的准确度,会严重依赖于基础语料库

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信...
    atLee阅读 21,594评论 8 46
  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 6,531评论 3 24
  • 一、表单 作用:用来搜集用户信息 语法: 注:所有的表单元素都要放置在form中 1.文本框 语法: 2.密码框 ...
    jiaiqi阅读 495评论 0 0
  • 如何打造节日营销新思路?网赢战车带您推陈出新 在准...
    有志者事竟成q阅读 489评论 0 0
  • 思甜走得非常快,颖儿得一路小跑才跟得上她。 到了洗手间,思甜哭了。 “你为什么哭啊?你和你的莎莎玩的不是...
    可儿君钧阅读 489评论 0 16