Elasticsearch实战 分析数据

当传送数据到Elasticsearch的时候,究竟发生了什么?

一、什么是分析

分析是在文档被发送并加入倒排索引之前,Elasticsearch在其主体上进行的操作,在文档被加入索引之前,Elasticsearch让每个被分析字段经过一系列的处理步骤。

    1.字符过滤——使用字符过滤器转变字符

    2.文本切分为分词——将文本切分为单个或多个分词

    3.分词过滤——使用分词过滤器转变每个分词

    4.分词索引——将这些分词存储到索引中

二、为文档使用分析器

有两种方式来指定字段所使用的分析器

1.当创建索引的时候,为特定的索引进行设置

2.在Elasticsearch的配置文件中,设置全局的分析器


在索引创建时增加分析器

设置主分片和副本分片的数量
添加定制分析器

在分析器对象中设置定制分析器、分词器、定制过滤器、字符过滤器、映射


三、使用分析API来分析文本


四、分析器、分词器和分词过滤器

分析器概览

字符过滤器:用来整理一个尚未被分词的字符串,例如移除不需要检索的字符。一个分析器可能有0个或者多个字符过滤器。

分词器:一个分析器必须有一个唯一的分词器。词器把字符串分解成单个词条或者词汇单元

分词过滤器:经过分词,作为结果的词单元流会按照指定的顺序通过指定的词单元过滤器。分词过滤器可以添加、删除、修改词单元。

内置的分析器

1.标准分析器

    包括标准分词器、标准分词过滤器、小写转换分词过滤器和停用词分词过滤器

2.简单分析器

    只使用了小写转换分词器。只在非字母处进行分词,并将分词自动转变为小写

3.空白分析器

    什么事情都不做,只是根据空白将文本切分为若干分词

4.停用词分析器

    和简单分析器的行为很相像,只是在分词流中额外地过滤了停用词

5.关键词分析器

    将整个字段当作一个单独的分词

6.模式分析器

    允许指定一个分词切分的模式。但是由于可能无论如何都要指定模式,通常更有意义的做法是使用定制分析器,组合现有的模式分词器和所需的分词过滤器


分词器

1.标准分词器

    是一个基于语法的分词器,分词默认的最大长度是255。它也移除了都好和句号这样的标点符号

2.关键词分词器

    是一种简单的分词器,将整个文本作为单个的分词,提供给分词过滤器

3.字母分词器

    根据非字母的符号,将文本切分为分词

4.小写分词器

    结合了常规的字母分词器和小写分词过滤器的行为

5.空白分词器

    通过空白来分隔不同的分词,空白包括空格、制表符、换行等

6.模式分词器

    允许指定一个任意的模式,将文本切分为分词


分词过滤器

1.标准分词过滤器

    什么都没做

2.小写分词过滤器

    将任何经过的分词转换为小写

3.长度分词过滤器

    将长度超出最短和最长限制范围的单词过滤掉

4.停用词分词过滤器

    将停用词从分词流中移除



小结

1.分析是通过文档字段的文本,生成分词的过程。在match查询这样的查询中,搜索字符串会经过同样的过程,如果一篇文档的分词和搜索字符串的分词相匹配,那么他就会和搜索匹配

2.通过映射,每个字段都会分配一个分析器。分析器既可以在Elasticsearch配置或或索引设置中定义,也可以是一个默认的分析器

3.分析器是处理的链条,由一个分词器以及若干再次分析器之前的字符过滤器、在此分词器之后的分词过滤器组成

4.在字符串传送到分词器之前,字符过滤器先处理这些字符串

5.分词器用于将字符串切分为多个分词。例如空白分词器使用空格来划分

6.分词过滤器用于处理分词器所产生的分词。例如可以使用词干提取来讲单词缩减为其词根,并让搜索在该词的复数和单数形式上都可以正常运作

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270

推荐阅读更多精彩内容