如何捕获相似基因(两个相似哈希算法分析)

如何捕获相似基因(两个相似哈希算法分析)

普通的哈希函数具有如下特点

  1. 可将任意长度的输入映射为固定长度的输出
  2. 不同的输入较大概率映射为不同的输出

可见,普通的哈希算法得到的输出(哈希值)可以很好判定两个文本是否相同。即哈希值虽然抛弃了文本的原始内容,但其继承了输入文本的某种基因,能够精确表达文本的内容

所谓相似哈希,就是一个特殊的映射函数,具有如下特点

  1. 可将任意长度的输入映射为固定长度的输出
  2. 相似的输入具有相同或相似的输出

与普通哈希算法不同,相似哈希算法继承了原输入文本更多的基因——相似基因。下面来介绍simhash算法。来看算法是如何捕获相似基因的。后面会介绍LSH算法,可以看出其捕获相似基因的方法是类似的。

以文本信息为例,simhash算法的大体思路是:

  1. 将文本分词
  2. 统计每个词出现的次数,假设有n个词
  3. 设定一个普通hash函数,能将词映射为一个固定长度(假设32bit)的数字,此处称为摘要
  4. 计算每个词的摘要。生成n个摘要(每个摘要为一个32bit数字)。
  5. 我们计算出的输入文本的相似哈希值也是一个32bit数字,这个数字的每一个二进制位是由步骤4计算出的n个摘要决定的。于是n个摘要对每一个二进制位进行了一次投票。少数服从多数。比如,当n个摘要对相似哈希的第1个二进制位进行投票,其中有m个摘要第一个二进制位为1,n-m个摘要的第一个二进制位为0,则当m>n-m时,则相似哈希的第1个二进制位为1,m<=n-m时为0。

经过如上5步,可以得到一个相似哈希值,还可以在第5步投票的时候考虑每个词出现的频次。即频次高的数字摘要投票的结果要加倍考虑,倍数就是词的频次。

通过分析simhash算法可以得到捕获相似基因的思路

  1. 将输入进行合理分割
  • 每个分割单元基本不变,具有独立的含义(每个词有独立的含义,变一个字可能整个意义都变了)
  • 输入的变化是分割单元的变化(若输入文本发生相似变化,也是个别词不一样)
  1. 对分割单元进行频次统计,频次越高的分割单元相似基因越强
  2. 采用投票方式找出最强的相似基因作为相似哈希

其中最重要的两个步骤是合理分割变化单元利用变化单元的统计特征。几乎所有的相似哈希算法都是应用了这两个步骤。下面简述一下LSH算法,可以看到其也是利用上述两个步骤完成相似基因的捕获的。

还是以文本信息为例,LSH算法的思路如下:

  1. 将输入进行分词
  2. 生成n种不同的将词映射到一个数字的映射方法。
  3. 针对n种映射方法的第i(i=1,...,n)种,进行如下计算
  4. 将输入文本的所有词输入第i种映射,每个词计算出一个映射值
  5. 取所有映射值的最小值作为第i种映射方法计算出的输入文本映射值
  6. 通过步骤3可计算出n个文本映射值。将这n个文本映射值作为文本的相似基因。

分析如上步骤,可以看出其也是对输入信息进行了合理的分割。由于n中映射方法完全是随机的,则每种映射方法所得到的文本映射值相当于从分词中的随机获取一个词。两个相似文本通常是存在大量相同词语的,仅有少数词语不同的。如果进行随机抽取,抽取到相同部分词语的概率会比不同词语的概率大。故其也是利用到了分割单元的统计信息进行相似基因的获取的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • 前言 其实读完斯坦福的这本《互联网大规模数据挖掘》,让我感觉到,什么是人工智能?人工智能就是更高层次的数据挖掘。机...
    我偏笑_NSNirvana阅读 12,185评论 1 23
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,649评论 2 64
  • 所有货币都需要一些方法来控制供应,并强制执行各种安全属性以防止作弊。在法定货币方面,像中央银行这样的组织控制货币供...
    Nutbox_Lab阅读 3,005评论 1 3
  • 如受惊小鹿般的女孩 躲在高大男孩的身后 目光惊乍地望着喋喋不休的女人 女人只穿了一件T恤 下身短裤短的可怜 露出白...
    胤女阅读 266评论 0 1
  • 又快到了毕业季,每到找工作的时候,都是我最难受的时候。看着别人都拿到了心仪的offer,然后在角落里慢慢细数自己的...
    逆向学习阅读 322评论 0 0