Unsupervised learning of semantic representation for documents with the law of total probability_...

摘要

提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。

现存的方法(通过分析文档包含相关性来扩充用来表示文档的向量)远不理想的原因是文档的物理限制阻碍了之间的相关性评估——无法捕获深层的相关性。

为了解决以上问题,本文通过之间的公相关词来进一步推测它们之间的深层关联,为了避免高估深层关联本文基于全概率公式来约束深层关系推理——以边缘概率为指标。

介绍

BOW(bag of words)被广泛应用的原因是:简单、有效、表现优秀,然而词袋模型的缺点是只能作为含有公共词的文档的相似性的指标,不能反映含有不同词的文档的相似性。

解决以上问题提出了latent topic models被提出, 常见的如下方法:

  • latent semantic indexing
  • latent dirichlet allocation
  • doc2vec

基于上面的方法,文档将被表示为对一定数量主题的分布,相似的文档的分布也相似。但基于主题分布模型的方法中很多参数(尤其是主题维度)经常难以确定

相比于latent topic models,统计学文档特征扩充方法基于文档源词与文档语料库中所有词的相关性来构建上下文,而相关性是根据统计数据得到的,通常为co-occurrence frequencies,这样一来BOW产生的稀疏文档特征向量就被扩充为稠密特征向量,并且这种方法没有像topics models一样的限制。
常用的文档特征扩充方法是Context Vector Model(CVM),该方法把和源文档中任意词相关的词判别为文档的相关词,把在同一篇文档中中共现的词判别为两个词相关。但由于文档的物理限制,基于这种方法获取词之间的相关性的效果不理想。
为了检测词之间的传递相关性(不能根据co-occurrence frequencies检测),条件概率是一个很好的idel,在这篇文章中把词之间的相关性形式化为条件概率,这样就可以从理论上推测传递相关性了,同时基于词边缘概率全概率为条件的条件概率的关系来避免高估传递相关性。

本文贡献

  • 通过词之间的传递相关性来度量文档之间的语意相似性
  • 通过最小化以全概率公式为基础获得的边缘概率以原始的频率为基础获得的边缘概率之间的区别提出了三个度量词之间传递相关性的策略
  • 实验表明本文提出的方法比现有最优秀方法有更好的表现

相关工作

对BOW特征向量的扩充,已经有很多相关的工作,根据词和文档之间相关关系的度量方法可以分为两类

  • 统计学方法有下面两个步骤:
    • 1、couting frequencies
    • 2、smoothing functions(PCP、PPMI、Jaccard)
  • 以知识库为基础的方法,常见的有:
    • WordNet involved Document Representation method
    • Disambiguated Core Semantics method

知识库虽然比共现频率更可靠,但是往往不匹配或过期

统计学文档特征扩充方法中包含词和文档之间关系的完整词向量由各个部分词向量组合而成。目前这个想法已经运用在了神经网络领域。即神经网络的输入为低维空间词向量用于句子建模的卷积神经网络通过卷积核将这些特征向量组合(DRBM通过RBM组合词向量、WMD通过将计算文档之间距离的问题映射到一个已经被成熟研究的Earth Movers Distance)文章中将上面的方法归类为主题模型

虽然本文的关注点在于如何计算词之间的相关性,但还是对统计业务流中的某些其他方面进行了提升:

  • 通过S-VSM来避免词向量的过度扩充(仅仅考虑top-k语意相关)
  • 提出DDE来组合词向量(对每个维度赋予不同的权重)

预备知识

表一中展示了本文中用到的符号:

在BOW中文档集合D中有m个不同的字符,它们用来构建特征空间,D中的任意文档,它的特征向量表示如下:
\Phi_{bow}:\mathbf{d}=\left ( c_{v_1|d}, c_{v_2|d}, c_{v_3|d}, ..., c_{v_m|d}\right )^T \in \mathbb{R}^m
考虑到BOW不能识别包含不同词的文档的相似性,所以提出了CVM,用来通过一组加权的词向量来发现文档的意义。
V中任意的v_i的上下文词向量被定义为(Billhardt et al.):
v_i = \left ( \frac{c_{v_iv_1|D}}{c_{v_i|D}}, \frac{c_{v_iv_2|D}}{c_{v_i|D}},...,\frac{c_{v_iv_m|D}}{c_{v_i|D}} \right )^T
一般情况下,词的意思应该独立于语料库的尺寸。因此,这里引入了语料库中v_i的出现频率c_{v_i|D}来表达v_i的上下文。V_i中的值用来度量v_i和语料库V中词的关系。

组合所有的词向量,我们可以得到一个m * m的矩阵V = \left ( v_1, v_2, ..., v_m \right )(上下文矩阵),CVM生成的文档向量为:


基于CVM的文档特征向量是在BOW的基础上根据语料库中所有词与源词之间的平均关系来扩充的,而这里的关系在这里被定义为词与词之间的显式关系,下图显示由于文档的物理限制,这种关系是有局限性的。

类似于本文中的idel,CRM(Coupled term-term Relation Model)已经实现了推测传递关系,该方法中完全关系被表示为:显式关系和隐式关系的组合,核心公式如下:
\boldsymbol{V_i}\left ( j \right )=\left\{\begin{matrix} \alpha \frac{c_{v_iv_j|D}}{c_{v_i|D}} + \frac{(1 - \alpha )}{\left | L \right |}\sum _{v_k\in L}min_{a = i,j}\left \{ \frac{c_{v_a,v_k|D}}{c_{v_a|D}} \right \} & j \neq i\\ 1 & else \end{matrix}\right.
其中L = \left \{ v_k|\frac{c_{v_i,v_k|D}}{c_{v_i|D}}> 0 \wedge \frac{c_{v_j,v_k|D}}{c_{v_j|D}}> 0 \right \}\left | L \right |表示语料库中v_i, v_j公共现词的个数。
上面CRM公式用一个简单的参数\alpha来控制不同词对显式关系隐式关系的权重,这有降低特征向量的区分力的危险。

全概率模型

本文通过显式关系直接计算完全关系,这里将v_jv_i显式关系形式化为条件概率:
\frac{c_{v_iv_j|D}}{c_{v_i|D}} = \mathbf{P}\left ( v_j|v_i \right )
概率化后可以为推测隐式关系提供理论基础,也为发现完全关系词的边缘概率之间的关系提供的保证。通过线性回归可以自动推测显式关系和隐式关系的权重。

定义完全关系

假设一个词在另一个词出现的条件下的条件概率可以通过它们对于语料库中所有词的当前分布(词的边缘概率,对于语料库中不同的词赋予不同的权重\omega_k)来修正。则有下面的修正后的条件概率公式:

考虑到在大多数情况下v_i,v_j并不是独立的,所以有下面的近似相等公式:
p\left ( v_j,v_i \right ) \simeq \sum_{k = 1}^{m}p\left ( v_i|v_k \right )p\left ( v_j|v_k \right )p\left ( v_k \right )
所以本文的公式中采用\omega_k来控制词v_i,v_j出现的独立性,使等式成立。

修正后的条件概率公式中当v_k=v_i时(v_k=v_j时同理),p\left( v_i|v_i \right) = 1,可知此时:
\frac {p\left ( v_i|v_i \right )p\left ( v_j|v_i \right )p\left ( v_i\right )}{p\left ( v_i \right )} = p\left ( v_j|v_i \right )
p\left ( v_j|v_i \right )即为v_i,v_j之间的显式关系,因此,以上定义的条件概率就是完全关系,它通过参数\omega_k组合了显式关系和隐式关系。

下面介绍参数\omega_k的获得方法

参数估计

  • 通过边缘概率估计参数
    有如下符号化约定:

    • \mathbf{\omega }=\left ( \omega_1, \omega_2, \omega_3,...,\omega_m \right )^T
    • \mathbf{p}= \left ( p\left ( v_1 \right ), p\left ( v_2 \right ), p\left ( v_3 \right ),..., p\left ( v_m \right ) \right )^T

    假设\mathbf{\omega }已知,由全概率公式可得:

    这里的参数\omega_k可以抵消联合概率中事件依赖带来的冲突。
    扩展p为一个m*m的矩阵P,上面等式可以表达如下:


    A=V \cdot P^T,则A中第k列第i行的元素即为联合概率p(v_i, v_k)
    在式子13的基础上,参数估计就等价于最优化下面的公式:

    等式14的可解析方程为:

  • 通过常数约束进行估计
    p(v_i)也可以通过语料库中所有词以源词出现为条件的条件概率推导出来,有如下等式:


    上式中两边同除以p(v_i)可以得到:

    和式12类似,式17可以表达为如下形式:

    上式中的\mathbf{1}是一个m维向量,其中所有的值为1,则参数估计的目标方程可以表示为如下等式:

    可解析表达式如下:

    上面就是基于常数约束的参数估计。

  • 通过语意一致性进行估计


    上面的讨论中提到:P(v_i|v_i) = \frac{p(v_i, v_i)}{p(v_i)} = 1,这是因为P(v_i, v_i) = p(v_i),通过引用等式8到这个等式中,可以得到下面等式:

    换为向量的形式:

    A = P^T \cdot V \cdot V,参数估计等价于最小化下面的等式:

    A中的第k列第i行的元素为联合概率P(v_i, v_i, v_k),可解析方程如下:

    和等式15类似,等式21中参数估计也是基于边缘概率,但是和15不同的是,21中的约束条件为语意约束(一个词和自身的共现关系为1)而不是基于全概率公式导出的约束。

方案实现

本文提出了三个参数估计的方式,使用这三个方式之前都需要我们首先构建上下文矩阵\mathbf{V},在式15和24中我们需要计算边缘概率来进行参数估计,得到参数之后,我们就可以计算完全关系接着生成扩充BOW文档特征向量,这部分将描述具体的工作流程。

这里一共采用三种方案来估计词和词之间的显式关系,如下:
这里的r(v_i, v_j)都表示词之间的显式关系

  • PCP:


  • PPMI:

    这里P(v_i, v_j) = \frac{c_{v_i,v_j|D}}{\sum_{i = 1}^{m}\sum_{j = 1}^{m}c_{v_i,v_j|D}}P(v_i) = \frac{c_{v_i|D}}{\sum_{j = 1}^{m}c_{v_j|D}},这里实现PPMI采用的窗口大小为2,这意味着仅仅一个词挨着另一个词的情况下,这两个词才被认为是共现。
  • LIN:

    这里的c_iv_i在WordNet中对应的概念,IC(c_i) = -log_2P(v_i)LCS(c_i, c_j)表示最低公共包含

正如公式5那样,上面方法计算的词之间的显式关系被符号化为条件概率:



此处,当i = j时,记$p(v_j|v_i) = 1

通常,我们假设一个词的出现频率足够产生可靠的边缘概率,为了使边缘概率的计算更加可信,我们引入了一个阈值变量TH,它用来判断一个词的出现评率是否充足。不是一般性,这里假设预料库V中各个词出现的评率逆序排列,则这里的边缘概率采用下面的公式计算:


上式中为每个小频率词赋予相同的边缘概率,并且这里赋予小频率词评率的权重为1,(小频率词通常表达一些特殊的意义,它有更强的连接两个词的能力),结果有入下的形式化参数向量:

上面,
与上面类似,令:

则的计算入下:

上式中,通过设置 less frequent words的权重为1,即为所有m个词的边缘概率,且不考虑他们与less frequent words的共现。
本文提出的文档特征向量的扩充方案整理成如下算法:

第四步中的计算词之间的完全关系的根据是公式6,第五步中产生扩充的文档特征向量的根据是公式3。

结论

  • 文档聚类
    1、扩充BOW是必要的;
    2、考虑词之间的隐式相关关系是必要的;
    3、词的边缘分布隐藏着一些固有的语义信息;
    4、三种参数估计方法中,基于边缘概率的方法表现最好,基于语意的方法次之,基于常数的方法最差;
    5、专家库的知识覆盖面可能会影响以知识库为基础的方法;
    6、本文提出的方法优于主题模型。

  • 语意相似性估计
    1、词的多义性、同义性、语意转化现象都增加了基于统计学的方法检测人名、技术术语相似性的难度;
    2、词之间的相关性更能表达语法相关性而非语意相似性。

展望

NNMs在非监督学习问题中(NLP)用得很少,在本文的实验中,NNM在两个任务中都没有足够好的表现,这里将表现不好的原因归结为以下几个方面:
对于非监督任务,NNMs给的信息量过大:NNM在文档特征向量中嵌入的不仅仅是语意形式,还有很多语法信息,这些不必要的信息可以通过监督训练过滤掉,但是这也许会影响非监督方法的计算过程。此外,非监督的关键是采用尽可能少的信息训练百万级的参数,从这方面讲,TPMF和TPMS获取的词之间的共现频率、词的出现频率就可以成为新的约束,把它们加入NNMs中有提高NNMs表现的可能。

本文实验结果表明,统计学方法和基于专家知识的方法在文档聚类和语意相似度估计中各有长短,所以集成以专家知识为基础的方法和本文提出的方法来强化词语关系估计效果,进而缓解知识覆盖面有限的问题是很有价值的。

在用基于知识的方法来推测隐式关系之前,一词多义问题也需要控制。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容