五月头条:Python 称霸全球 上个月,Python 的受欢迎程度又猛增了 2.2%,总份额达到了 25.35%。在 TIOBE 榜单的历史上,除 2001 年 6 月(当时是 TIOBE 榜单的第一个月,追踪的语言数量较少)和同年 10 月的 Java 之外,没有任何编程语言曾达到过如此高的份额......
我在之前的文章中介绍了如何自定义 Elasticsearch 的分词词库。但是原先那种方式,后期只要词库内容发生了变动,就需要重启 ES 才能生效。在实际工作中,频繁重启 ES 集群不是一个好办法。所以 ES 提供了热更新词库的解决方案,在不重启 ES 集群的情况下也能识别新增的词语......
一、增加停用词 1,IK 分词器默认效果 (1)下面命令使用 IK 分词器测试中文分词效果: (2)返回的结果如下,可以看到在分出来的词语中有一个“是”,这个词语其实可以被认为是一个停用词,在分词时是不需要切分出来的。在这里被切分出来了,那也就意味着......
Elasticsearch 在创建索引和查询索引时都需要进行分词,分词需要用到分词器。分词器的作用是:把一段文本中的文本按照一定规则切分成词语。本文将演示如何在在 Elasticsearch 中集成 IK 这个中文分词器。 一、基本介绍 1,分词器介绍 (1)分词器底层对应的是 Analyzer 类......
Elasticsearch 是一个强大的开源搜索和分析引擎,它通过 RESTful API 提供了灵活而直观的方式来与其进行交互。本文通过样例演示如何使用 REST API 操作 Elasticsearch。 提示:本文我使用 CURL 工具来调用 Elasticsearch 的 REST API。CURL 是利用 URL 语法在命令行下工作的开源文件传输工具......
为了便于管理和监控 Elasticsearch 集群,我们通常会使用一些监控管理工具,比如 Cerebro。本文将演示如何安装和使用 Cerebro 这个工具。 1,下载安装包 (1)访问 Cerebro 的 GitHub 主页,选择合适的版本下载到服务器上。 注意:Cerebro 可以部署在任意节点上......
ElasticSearch 是一个基于 Lucene 的分布式、高扩展、高实时的搜索与数据分析引擎。我之前写过文章演示如何在 CentOS 系统下安装部署单机版的 Elasticsearch 服务,下面我接着演示如何使用分布式集群的方式进行 Elasticsearch 服务部署......
1,什么是 Elasticsearch? (1)Elasticsearch 是一个分布式的全文检素引擎。它对 Lucene 的功能做了封装,具有实时搜索、稳定、可靠、快速等特点。 (2)Elasticsearch 主要包含以下特性: 支持分布式建立素引和搜索索引。 索引支持分片,以及自动负载均衡。 支持 REST API。 集群配置简单......
1,什么是 Solr? Solr 是一个高性能、采用 Java 开发、基于 Lucene 的全文搜索服务器。它对 Lucene 做了封装,使用起来更加的方便,并且对外提供类似于 WebService 的接口,可以通过 HTTP 请求进行操作。 2,Solr 的特点 (1)利用 Solr 可以更快速地实现站内搜索功能......
1,Lucene 介绍 (1)Lucene 是 Java 家族中最为出名的一个开源搜索引擎,在 Java 世界中属于标准的全文检索程序,在传统 IT 领域的全文检素中占据着重要地位。 (2)Lucene 提供了两大核心引擎:索引引擎和搜索引擎。通过这两个引擎可以实现对数据建立索引......