Elasticsearch如何检索数据

news/2024/7/19 20:42:36 标签: 全文检索, lucene, elasticsearch
我们都知道Elasticsearch是一个全文检索引擎,那么它是如何实现快速的检索呢?

传统的数据库给每个字段都存储成一个单个值,对于全文检索而言,这样的存储是低效的。举个例子,我有一个大文本字段,存到数据库里面只能是一个值,如果想要检索这个大文本字段里面的任何一个词,数据库如何实现? 只能通过like模糊查询来实现,先不说性能低,这对于一个搜索引擎是远远不够的。

针对上面数据库的不足,所以才出现了Lucene这种全文检索框架而它的核心就在于采用了倒排索引(Inverted Index)的数据结构,不同于数据库的行式存储,Lucene这里采用了列式存储的方式故而对单个字段可以支持多个值的存储,这就是倒排索引。

````
Term | Doc 1 | Doc 2 | Doc 3 | ...
------------------------------------
brown | X | | X | ...
fox | X | X | X | ...
quick | X | X | | ...
the | X | | X | ...
````


如上图所示,倒排索引的一个字段由多个Term组成,这些Term是一个有序的列表,并且是唯一不重复的。对于每一个Term又会映射上所有包含该Term的Document Id列表。


为什么谈到Lucene,因为Lucene本身只是一个全文检索工具包,它不具备企业级的一些特性,如分布式,副本,扩展等而Elasticsearch和Solr都是基于Lucene开发和扩展的企业级框架,所以了解Lucene对学习Elasticsearch和Solr会有很大帮助。


在Elasticsearch中每条数据都是一个json,实际上json中每一个字段都有它自己的倒排索引结构。

当然倒排索引中的每个Term保存的信息还有很多,比如这个Term在多少个Doucuments里面出现过的次数,在特定的Doucument里面出现的次数,每个Document的length,所有Document的平均length,这些信息是用来计算搜索的相关性(Relevance),我们都知道使用google和百度搜索结果后,数据会有个先后排名,排名靠前的基本都是最相关的数据,那么那些因素决定了数据的排名? 这里面其实就是上面所说的相关性来决定,关于相关性的计算方式也是Lucene里面的核心功能,目前Lucene里面主要有两种Rank算法:

(1)经典的基于VSM向量空间的TF/IDF算法

(2)最新的基于概率论的BM25算法

刚兴趣的朋友可以去维基百科学习一下,这里不再展开了。


早期的全文检索所有的数据都会被做成一个大的倒排索引,当新索引准备好之后,它会替代旧的大索引并且最近的变化数据可以被检索。

这个大的倒排索引有一个最大的特点就是不可变性,只要索引被写入磁盘后,就是不可变的:


优点:


(1)由于不可变性,所以不需要锁,也就是不存多个线程同时去修改数据。


(2)可以直接把索引加载到FileSystem Cache停留在cache中,因为它不会被修改并且FileSystem Cache有足够大的空间,这样以来直接在内存中查询代替在磁盘上,对搜索性能大大提升。

(3)其他的缓存如filter cache在整个index的生命周期内都是有效的,他们不会被重建,因为索引是不可变的。


(4)不可变的大索引可以得到更高的压缩比,这样以来能够节省io和占用的内存资源


缺点:

倒排索引的优点也是它的缺点,因为它不可变,所以为了使你新增的数据能够正常的搜索到,你需要重建整个索引,这严重限制了单个index存储的数量以及它的更新频率。

所以在Elasticsearch中采用了动态更新多个索引方式来解决这个问题,这个会在下篇的文章中介绍。


参考链接:

https://www.elastic.co/guide/en/elasticsearch/guide/master/inverted-index.html

https://www.elastic.co/guide/en/elasticsearch/guide/master/relevance-intro.html

https://www.elastic.co/guide/en/elasticsearch/guide/master/making-text-searchable.html


[b][color=green][size=large] 有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。 [/size][/color][/b] [img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

http://www.niftyadmin.cn/n/787583.html

相关文章

python3 beautifulsoup_python3 BeautifulSoup模块

from bs4 import BeautifulSoupimport requests,rereq_obj requests.get(https://www.baidu.com)soup BeautifulSoup(req_obj.text,lxml)标签查找print(soup.title) #只是查找出第一个print(soup.find(title)) #效果和上面一样print(soup.find_all(div)) #查出所有的div标签获…

移动电商——Flutter-Fluro引入和商品详细页建立

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

Wifi列表获取遇到的问题

一、给AndroidManifest添加 相关权限这里在本次测试机子上(7.11一加3手机)必须要先获取定位的两个权限(需要动态获取)否则获得的ScanResults 为空。参考博主:http://blog.csdn.net/guozhaohui628/article/details/7864…

python数据结构顺序存储初始化顺序表_顺序表(顺序存储结构)及初始化详解

顺序表,全名顺序存储结构,是线性表的一种。通过《什么是线性表》一节的学习我们知道,线性表用于存储逻辑关系为“一对一”的数据,顺序表自然也不例外。不仅如此,顺序表对数据的物理存储结构也有要求。顺序表存储数据时…

移动电商——Flutter-Fluro中Handler编写方法

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

移动电商——Flutter-Fluro的路由配置和静态化

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。

后端:搭建服务器

1:Appache 服务器 如果在项目发布之前启动的话会产生 8080,8009端口号被占用的情况。此时 关闭服务器,重新Run as Server 重新启动服务器即可。

Elasticsearch如何动态维护一个不可变的倒排索引

上一篇文章中介绍了Elasticsearch中是如何搜索文本的,同时也简述了在es里面索引数据结构的特点不可变性。索引不可变性的缺点限制了单个索引存储的最大数据量以及更新的频次,所以es面临的问题是如何解决倒排索引不可更新的特点而同时仍然保持不可变特性带…