知识问答

边学边实战系列（二）：ElasticSearch 技术原理图解

前面介绍了 ElasticSearch 基础概念、生态与应用场景相关的知识点。今天我将详细的为大家介绍 ElasticSearch 技术原理相关知识，希望大家能够从中收获多多！通过官方博客中的一篇图解文章(虽...

前面介绍了 ElasticSearch 基础概念、生态与应用场景相关的知识点。今天我将详细的为大家介绍 ElasticSearch 技术原理相关知识，希望大家能够从中收获多多！

通过官方博客中的一篇图解文章(虽然是基于2.x版本）来构筑对 ES 的初步认知（这种认识是体系上的快速认知）。

图解 ElasticSearch

云上的集群
- 集群里的盒子
云里面的每个白色正方形的盒子代表一个节点——Node。
- 节点之间
在一个或者多个节点直接，多个绿色小方块组合在一起形成一个 ElasticSearch 的索引。
- 索引里的小方块
在一个索引下，分布在多个节点里的绿色小方块称为分片——Shard。
- Shard＝Lucene Index
一个ElasticSearch的Shard本质上是一个Lucene Index。
Lucene是一个Full Text 搜索库（也有很多其他形式的搜索库），ElasticSearch是建立在Lucene之上的。接下来的故事要说的大部分内容实际上是ElasticSearch如何基于Lucene工作的。
图解 Lucene
Segment
- Mini索引——segment
在Lucene里面有很多小的segment，我们可以把它们看成Lucene内部的mini-index。
- Segment内部（有着许多数据结构）
  - Inverted Index
  - Stored Fields
  - Document Values
  - Cache
  - Inverted Index
    最最重要的Inverted Index
    Inverted Index主要包括两部分：
    - 一个有序的数据字典Dictionary（包括单词Term和它出现的频率）。
    - 与单词Term对应的Postings（即存在这个单词的文件）。
    当我们搜索的时候，首先将搜索的内容分解，然后在字典里找到对应Term，从而查找到与搜索相关的文件内容。
    查询“the fury”
    - 自动补全（AutoCompletion-Prefix）
    如果想要查找以字母“c”开头的字母，可以简单的通过二分查找（Binary Search）在Inverted Index表中找到例如“choice”、“coming”这样的词（Term）。
    - 昂贵的查找
    如果想要查找所有包含“our”字母的单词，那么系统会扫描整个Inverted Index，这是非常昂贵的。
    在此种情况下，如果想要做优化，那么我们面对的问题是如何生成合适的Term。
    - 问题的转化
    - 对于以上诸如此类的问题，我们可能会有几种可行的解决方案：
      1.* suffix -> xiffus *如果我们想以后缀作为搜索条件，可以为Term做反向处理。
      2.(60.6384, 6.5017) -> u4u8gyykk
      对于GEO位置信息，可以将它转换为GEO Hash。
      3.123 -> {1-hundreds, 12-tens, 123}
      对于简单的数字，可以为它生成多重形式的Term。
      - 解决拼写错误
      一个Python库为单词生成了一个包含错误拼写信息的树形状态机，解决拼写错误的问题。
      Stored Field字段查找
      当我们想要查找包含某个特定标题内容的文件时，Inverted Index就不能很好的解决这个问题，所以Lucene提供了另外一种数据结构Stored Fields来解决这个问题。本质上，Stored Fields是一个简单的键值对key-value。默
      Document Values 为了排序，聚合
      即使这样，我们发现以上结构仍然无法解决诸如：排序、聚合、facet，因为我们可能会要读取大量不需要的信息。
      所以，另一种数据结构解决了此种问题：Document Values。这种结构本质上就是一个列式的存储，它高度优化了具有相同类型的数据的存储结构。
      为了提高效率，ElasticSearch可以将索引下某一个Document Value全部读取到内存中进行操作，这大大提升访问速度，但是也同时会消耗掉大量的内存空间。
      总之，这些数据结构Inverted Index、Stored Fields、Document Values及其缓存，都在segment内部。
      搜索发生时
      搜索时，Lucene会搜索所有的segment然后将每个segment的搜索结果返回，最后合并呈现给客户。
      Lucene的一些特性使得这个过程非常重要：
      - Segments是不可变的（immutable）
        Delete? 当删除发生时，Lucene做的只是将其标志位置为删除，但是文件还是会在它原来的地方，不会发生改变
        Update? 所以对于更新来说，本质上它做的工作是：先删除，然后重新索引（Re-index）
      - 随处可见的压缩
        Lucene非常擅长压缩数据，基本上所有教科书上的压缩方式，都能在Lucene中找到。
      - 缓存所有的所有
        Lucene也会将所有的信息做缓存，这大大提高了它的查询效率。
      缓存的故事
      当ElasticSearch索引一个文件的时候，会为文件建立相应的缓存，并且会定期（每秒）刷新这些数据，然后这些文件就可以被搜索到。
    随着时间的增加，我们会有很多segments，
    
    所以ElasticSearch会将这些segment合并，在这个过程中，segment会最终被删除掉
    
    这就是为什么增加文件可能会使索引所占空间变小，它会引起merge，从而可能会有更多的压缩。
    - 举个栗子
    有两个segment将会merge
    这两个segment最终会被删除，然后合并成一个新的segment
    
    这时这个新的segment在缓存中处于cold状态，但是大多数segment仍然保持不变，处于warm状态。
    以上场景经常在Lucene Index内部发生的。
    在Shard中搜索
    ElasticSearch从Shard中搜索的过程与Lucene Segment中搜索的过程类似。
    与在Lucene Segment中搜索不同的是，Shard可能是分布在不同Node上的，所以在搜索与返回结果时，所有的信息都会通过网络传输。
    需要注意的是：1次搜索查找2个shard ＝ 2次分别搜索shard
    - 对于日志文件的处理
    当我们想搜索特定日期产生的日志时，通过根据时间戳对日志文件进行分块与索引，会极大提高搜索效率。
    当我们想要删除旧的数据时也非常方便，只需删除老的索引即可。
    在上种情况下，每个index有两个shards
    - 如何Scale
    - shard不会进行更进一步的拆分，但是shard可能会被转移到不同节点上
    - 所以，如果当集群节点压力增长到一定的程度，我们可能会考虑增加新的节点，这就会要求我们对所有数据进行重新索引，这是我们不太希望看到的，所以我们需要在规划的时候就考虑清楚，如何去平衡足够多的节点与不足节点之间的关系。
      - 节点分配与Shard优化
        为更重要的数据索引节点，分配性能更好的机器
        确保每个shard都有副本信息replica
        路由Routing
        每个节点，每个都存留一份路由表，所以当请求到任何一个节点时，ElasticSearch都有能力将请求转发到期望节点的shard进一步处理。
        ElasticSearch整体结构
        通过上文，在通过图解了解了ES整体的原理后，我们梳理下ES的整体结构
        一个 ES Index 在集群模式下，有多个 Node （节点）组成。每个节点就是 ES 的Instance (实例)。
        每个节点上会有多个 shard （分片）， P1 P2 是主分片, R1 R2 是副本分片
        每个分片上对应着就是一个 Lucene Index（底层索引文件）
        Lucene Index 是一个统称
        由多个 Segment （段文件，就是倒排索引）组成。每个段文件存储着就是 Doc 文档。
        commit point记录了所有 segments 的信息
        Lucene索引结构
        上图中Lucene的索引结构中有哪些文件呢？
        文件的关系如下：
        
        Lucene处理流程
        上文图解过程，还需要理解Lucene处理流程, 这将帮助你更好的索引文档和搜索文档。
        创建索引的过程：
        准备待索引的原文档，数据来源可能是文件、数据库或网络
        对文档的内容进行分词组件处理，形成一系列的Term
        索引组件对文档和Term处理，形成字典和倒排表
        搜索索引的过程：
        对查询语句进行分词处理，形成一系列Term
        根据倒排索引表查找出包含Term的文档，并进行合并形成符合结果的文档集
        比对查询语句与各个文档相关性得分，并按照得分高低返回
        ElasticSearch分析器
        上图中很重要的一项是语法分析/语言处理, 所以我们还需要补充ElasticSearch分析器知识点。
        分析包含下面的过程：
        首先，将一块文本分成适合于倒排索引的独立的词条，
        之后，将这些词条统一化为标准格式以提高它们的“可搜索性”，或者 recall
        分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里：
        字符过滤器首先，字符串按顺序通过每个字符过滤器。他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML，或者将 & 转化成 and。
        分词器其次，字符串被分词器分为单个的词条。一个简单的分词器遇到空格和标点的时候，可能会将文本拆分成词条。
        Token 过滤器最后，词条按顺序通过每个 token 过滤器。这个过程可能会改变词条（例如，小写化 Quick ），删除词条（例如，像 a， and， the 等无用词），或者增加词条（例如，像 jump 和 leap 这种同义词）。
        Elasticsearch提供了开箱即用的字符过滤器、分词器和token 过滤器。这些可以组合起来形成自定义的分析器以用于不同的目的。
        内置分析器
        Elasticsearch还附带了可以直接使用的预包装的分析器。接下来我们会列出最重要的分析器。为了证明它们的差异，我们看看每个分析器会从下面的字符串得到哪些词条：
        "Set the shape to semi-transparent by calling set_trans(5)"
        标准分析器
        标准分析器是Elasticsearch默认使用的分析器。它是分析各种语言文本最常用的选择。它根据 Unicode 联盟定义的单词边界划分文本。删除绝大部分标点。最后，将词条小写。它会产生。
        set, the, shape, to, semi, transparent, by, calling, set_trans, 5
        简单分析器
        简单分析器在任何不是字母的地方分隔文本，将词条小写。它会产生
        set, the, shape, to, semi, transparent, by, calling, set, trans
        空格分析器
        空格分析器在空格的地方划分文本。它会产生
        Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
        语言分析器
        特定语言分析器可用于很多语言。它们可以考虑指定语言的特点。例如，英语分析器附带了一组英语无用词（常用单词，例如 and 或者 the ，它们对相关性没有多少影响），它们会被删除。由于理解英语语法的规则，这个分词器可以提取英语单词的词干。
        英语分词器会产生下面的词条：
        set, shape, semi, transpar, call, set_tran, 5
        注意看 transparent、 calling 和 set_trans 已经变为词根格式。
        什么时候使用分析器
        当我们索引一个文档，它的全文域被分析成词条以用来创建倒排索引。但是，当我们在全文域搜索的时候，我们需要将查询字符串通过相同的分析过程，以保证我们搜索的词条格式与索引中的词条格式一致。
        全文查询，理解每个域是如何定义的，因此它们可以做正确的事：
        当你查询一个全文域时，会对查询字符串应用相同的分析器，以产生正确的搜索词条列表。
        当你查询一个精确值域时，不会分析查询字符串，而是搜索你指定的精确值。
        举个例子
        ES中每天一条数据，按照如下方式查询：
        GET /_search?q=2014              # 12 results
        GET /_search?q=2014-09-15        # 12 results !
        GET /_search?q=date:2014-09-15   # 1  result
        GET /_search?q=date:2014         # 0  results !
        为什么返回那样的结果？
        date 域包含一个精确值：单独的词条 2014-09-15。
        _all 域是一个全文域，所以分词进程将日期转化为三个词条：2014， 09，和 15。
        当我们在_all域查询 2014，它匹配所有的12条推文，因为它们都含有 2014 ：
        GET /_search?q=2014              # 12 results
        当我们在_all域查询 2014-09-15，它首先分析查询字符串，产生匹配 2014，09，或 15 中任意词条的查询。这也会匹配所有12条推文，因为它们都含有 2014 ：
        GET /_search?q=2014-09-15        # 12 results !
        当我们在 date 域查询 2014-09-15，它寻找精确日期，只找到一个推文：
        GET /_search?q=date:2014-09-15   # 1  result
        当我们在 date 域查询 2014，它找不到任何文档，因为没有文档含有这个精确日志：
        GET /_search?q=date:2014         # 0  results !

发表于 2023-06-15 16:12
阅读 ( 41 )

作家榜 »

shitian 662 文章
石天 437 文章
每天惠23 33 文章
小A 29 文章