您的位置 首页 java

Spring Boot + Solr 全文检索微服务简易集成

优质文章,及时送达

作者:JasonGofen

链接:

本文内容主要讲解Solr 7.7.1 环境搭建后使用Spring boot 2.1.3集成SolrJ实现简易全文检索微服务,对于Solr与Spring boot的介绍内容网上资料很多,本文不再赘述。

关于本文内容所涉及资源在最后会给大家统一都列出来。

一、环境说明

Spring boot 结合 SolrJ 实现对Solr server 的访问是非常简单的,它们相互之间的关系如下图所示。

主体实现是通过在Spring boot微服务中集成SolrJ,配置好 solr Server参数,调用SolrJ中的CRUD API实现请求Solr Server端进行添加、修改、删除索引和查询的操作。至于如何结合现有业务系统,我们后面介绍。

图1 简易环境说明

下面以最简单快速的方式实现全文检索基础CRUD功能。

二、搭建Solr 7.7.1 Server端

因自己的电脑硬盘空间满了没装Linux虚拟机,就 以Windows为例 安装Solr Server端了。其实总体而言两个系统对Solr Server端的操作类似,各位看官举一反三就好,就两种系统部署Solr的不同下面也会做相应的提及。

  • 已配置好的Solr 7.7.1下载:

我们首先来了解一下Solr的常见命令:

  • 启动:

 

./solr start

  • 关闭:

 

./solr stop -all

  • 重启:

 

./solr restart

  • 创建 Core

 

./solr create -c YourCoreName -d _default

  • 删除Core:

 

./solr delete -c YourCoreName

关于Solr更细致的内容,大家可以参阅下方链接:

  • Solr 官网

  • Solr API官方文档

  • Solr 中文文档(译版)

要想搭建Solr Server拢共分3步:

步骤1:部署Solr 7.7.1

步骤1-1:下载安装JDK和Solr Server端

  • 下载安装JDK 8: JDK的安装在这就不说了,网上有很多资料。

java SE Development Kit 8 下载

  • 下载Solr 7.7.1 压缩包 请注意Linux下载solr-7.7.1.tgz,Windows下载solr-7.7.1.zip

步骤1-2:解压Solr-7.7.1压缩包

  • Windows下解压压缩包到对应的目录,我的路径是:

 

C:myworkingsolr-7.7.1

  • Linux下使用 tar 命令解压Solr压缩包:

 

tar zxvf solr-7.7.1.tgz -C /myworking

步骤1-3:进入bin目录运行Solr

Windows与Linux操作solr的命令都是一样的,但都需要进入到Solr的 bin 目录下,我的目录是 C:myworkingsolr-7.7.1bin linux的目录使用 cd 命令进入即可。

  • 进入的到 bin 目录下执行 启动 命令:

 

./solr start

  • 启动完成后的控制台截图:

图2 控制台Solr启动完成图

  • 随后我们访问 即能看到Solr Server端的 Web 页面了

图3 Solr Server端 Web首页

步骤1-4:创建Core

Solr Core 的创建有两种方式,第一种是通过命令行的方式,第二种是在Solr Web 首页中创建。

  • 使用命令行创建 Core

我们只需要进入到上述的 bin 目录,复制以下命令即可创建 Core ,命令中的 TestCore 为名称可以自行替换:

 

./solr create -c TestCore -d _default

  • 使用 Web 端创建 Core

上述图3中左侧的列表第3个 Core Admin 菜单项,点开后就明白怎么做了。

  • Web 端查看 TestCore

图4 选择TestCore

图5 TestCore详情图

步骤2:配置IK-Analyzer中文分词

介绍性的内容还是不罗列了,大家自己百度吧。Ik-Analyzer分词据说是国内最好用的中文分词,大部分人都用这个。目前Solr-7.7.1也自带了一个中文分词,具体的对比我没做过,等装完IK后大家回来可以进行下对比。 同时欢迎分享给我哦。

  • IK分词GitHub:

  • 动态词库自动加载:

PS:关于动态词库自动加载,这个大家看一下下面这段引用描述后视项目情况选择要不要去研究下。

如果只是在我们原有的业务系统中简单集成Solr,那暂时没必要去了解动态词库自动加载。如果像商城等业务系统中,对于搜索模块是业务系统的核心之一,那么简单使用IK可能无法达到线上使用的要求。在IK分词器中默认是一次启动将主词库、停用词以及扩展词库全部加载完毕,后续如果再想要增加额外的扩展词,就必须得修改对应的扩展词表重新打包上传并重启服务方能生效,这种方式不适合应用与线上服务。那么到底如何实现这种无缝扩充词库呢?大家可以看看上面的博客。

步骤2-1:配置IK-analyzer jar包和词库

首先需要大家下载jar包和源码,我们下面需要放到Solr Server端对应的目录下。

  • IK分词jar包:

  • IK分词GitHub源码:

  1. 将下载好的 ik-analyzer-7.7.1.jar 包放入Solr服务的 webappWEB-INFlib 目录下,我的目录全路径是:

 

C:myworkingsolr-7.7.1serversolr-webappwebappWEB-INFlib

  1. 将下载好的 ik-analyzer-solr7-master 源码下的 srcmainresources 目录中的文件***(如下)***,放入到 webappWEB-INFclasses 目录下:

 

① IKAnalyzer.cfg.xml 扩展配置文件

② ext.dic 扩展词库

③ stopword.dic 停止词库

④ ik.conf 动态词库配置文件

⑤ dynamicdic.txt 动态词库

我的目录全路径是:

 

C:myworkingsolr-7.7.1serversolr-webappwebappWEB-INFclassses

  • 关于词库中同义词库、扩展词库、停止词库的介绍,可以看下面的blog:

步骤2-2. 配置 TestCore serversolrTestCoreconfmanaged-schema ,添加IK分词器,示例如下:

 

<!-- ik分词器 -->

<fieldType name="text_ik" class="solr.TextField">

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart=" false " conf="ik.conf"/>

<filter class="solr.LowerCaseFilterFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>

<filter class="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

*PS:放在 <schema name="default-config" version="1.6"> 标签下。* 同时在该标签下我们还需要配置field,请看步骤3。

步骤3:配置field

Solr filed域的配置极为重要,filed的配置会影响到索引的创建和查询出的结果展示。

 

<!-- Solr Test search -->

<field name="title" type="text_ik" indexed="true" stored="true" required="true" multiValued="true" />

<field name="content" type="text_ik" indexed="true" stored="true" required="true" multiValued="true" />

<field name="filetype" type="string" indexed="true" stored="true" required="true" multiValued="false" />

<field name="uploadtime" type="string" indexed="false" stored="true" required="true" multiValued="false" />

<!-- 复制域,可以将多个Field复制到一个Field中,以便进行统一的检索,multiValued属性需要设置成true -->

<copyField source="content" dest="title" />

name:查询时的名称

type:这个是之前定义的FieldType的名称,在这使用的ik分词

indexed:是否索引(true/false)

stored:是否存储(是否将索引结果存储到索引库)

multivalued:是否多值(一般配合copyField使用)

  • 动态filed

在定义 filed 时,可能会随着业务主线作出变更,那么每次在 managed-schema 更改 filed 后,还需重启Solr也是个麻烦事儿。那么在生产环境如此操作可能显得不是那么理想了。那么可以在变更时使用类似通配符的方式建立动态 filed ,比如 name="title" 可以写成 name="fl_*" ,这样只要以 fl_ 开头的索引都可以被建立。

步骤4:重启Solr服务,测试ik分词

这里请注意 Analyse Fieldname / FieldType: 右边的下拉列表,需要去选中ik分词 text_ik 。我们可以看到输入 中华人民共和国 关键字后所出现的分词效果。

图6 分词效果图

至此我们的Solr Server端基础版就搭建完成了,下面开始使用Spring boot结合SolrJ进行全文检索微服务的搭建。

三、Spring boot 微服务实现

Spring boot的基础知识不讲解了,下面我们采用Spring boot 2.1.3结合SolrJ 7.7.1完成全文检索微服务的实现。

  • 下载源码

步骤1:在本地准备将要建立索引的文件

准备两个doc文档,写入一些自定内容,放到指定目录下,当然也不一定非得要doc。以下是我准备的两个文件:

 

C:solrfiledata鹅鹅鹅.pdfC:solrfiledata静夜思. docx

步骤2:搭建Spring boot项目

  • 创建项目,在 pom.xml 引入 SolrJ 的Maven依赖

 

<!-- SolrJ 7.7.1 API -->

<dependency>

<groupId>org.apache.solr</groupId>

<artifactId>solr-solrj</artifactId>

<version>7.7.1</version>

</dependency>

<!-- 解析文档内容工具包 -->

<dependency>

<groupId>org.apache.tika</groupId>

<artifactId>tika-core</artifactId>

<version>1.9</version>

</dependency>

  • 目录结构

 

├── src

│ └── main

│ ├── java

│ │ └── com.jasongofen

│ │ ├── client

│ │ │ └── SolrClient.java // Solr客户端

│ │ ├── config

│ │ │ ├── CorsConfig.java // 跨域配置文件

│ │ │ └── SolrConfigProperties.java // yml属性实例化配置文件

│ │ ├── test

│ │ │ └── SolrCURDTest.java // Solr API调用测试示例

│ │ ├── util

│ │ │ ├── ConvertUtil.java // 自定义转换工具类

│ │ │ └── TikaUtil.java // 提取文档内容工具类

│ │ └── SolrProjectApplication.java // Spring boot启动类

│ └── resources

│ ├── application.yml // 项目配置

│ ├── banner.txt // banner配置

│ └── logback-spring.xml // 日志配置

├── pom.xml // 依赖配置

└── README.md // 项目帮助文档

  • 配置 application.yml solr 节点下的属性值***(必须)***

 

# solr配置

solr:

# Solr Server端地址

server: localhost:8983 # 设置你的Solr Server访问地址

# Solr Core名称

core: TestCore # 设置你的Solr Core名称

# 上面准备的文档的所在本地路径

dir: C:solrfiledata # 设置你的需要建立索引的文件所在目录

步骤3:运行项目

下面就可以运行项目了,SolrJ API调用请看以下内容。未完待续

SolrJ API调用说明

基础的API调用代码在项目目录 srcmainjavacom.jasongofen.testSolrCURDTest.java 文件中,该 java 是一个 Controller 可以以 http 请求的方式模拟其他业务系统调用过程。

  • 添加、修改索引

    添加索引时首先使用 HttpSolrClient Solr Server 建立连接,随后解析需要建立索引的文件*(至于需要结合现有的业务系统是采用 http ftp 等方式从各自的文件Server中获取,还是另外的方式,请结合当前项目业务需要作扩展即可)*,接着把解析出的文件数据放到对应的索引位置,在设置索引内容时 id 字段是必须要设置的且全局唯一,最后提交索引并关闭 SolrClient

    修改索引时,如果 id 在索引库中已存在,则执行更新操作。

 

@GetMapping("/Add")

public void solrAdd throws Exception {

// 设置文件路径

List<String> files = new ArrayList<>;

files.add("鹅鹅鹅.pdf");

files.add("静夜思.docx");

// 获取Solr客户端

HttpSolrClient solr = SolrClient.getClient(solrConfigProperties.getServer);

String prefix = "";

for (String fi : files) {

System.out.println(fi);

// 取后缀名

prefix = ConvertUtil.getFileSufix(fi);

if (prefix.equalsIgnoreCase("txt") ||

prefix.equalsIgnoreCase("docx") ||

prefix.equalsIgnoreCase("doc") ||

prefix.equalsIgnoreCase("pdf")) {

String fileInfo = fi.split("\.");

String content = "";

// 获取文件流,取出文件内容

inputStream inputStream = new FileInputStream(solrConfigProperties.getDir + fi);

if (prefix.equals("txt")) {

content = TikaUtil.txt2String(inputStream);

} else if (prefix.equals("docx") || prefix.equals("doc") || prefix.equals("pdf")) {

content = TikaUtil.doc2String(inputStream);

} else {

inputStream.close;

}

// 添加索引

SolrInputDocument solrDoc = new SolrInputDocument;

String formatDate = ConvertUtil.formatDate;

// 执行添加 ps:如果id相同,则执行更新操作

solrDoc.addField("id", UUID.randomUUID.toString.toUpperCase.replace("-", ""));

solrDoc.addField("title", fileInfo[0]);

solrDoc.addField("content", content);

solrDoc.addField("filetype", prefix);

solrDoc.addField("uploadtime", formatDate);

solr.add(solrConfigProperties.getCore, solrDoc);

} else {

continue;

}

}

// 提交

solr.commit(solrConfigProperties.getCore);

solr.close;

}

  • 查询

查询时因返回的是JSON串,并未做前端页面展示,请根据业务需求自行定制。

 

@GetMapping("/Query")

public SolrDocumentList solrQuery throws Exception {

HttpSolrClient solrClient = SolrClient.getClient(solrConfigProperties.getServer);

// 定义查询条件

Map<String, String> params = new HashMap<String, String>;

params.put("q", "*:*");

SolrParams mapSolrParams = new MapSolrParams(params);

//执行查询 第一个参数是collection,就是我们在solr中创建的core

QueryResponse response = solrClient.query(solrConfigProperties.getCore, mapSolrParams);

// 获取结果集

SolrDocumentList results = response.getResults;

for (SolrDocument result : results) {

// SolrDocument 数据结构为Map

System.out.println(result);

}

solrClient.close;

return results;

}

  • 删除索引

需要删除索引时,根据 id 去删除即可。

 

@GetMapping("/Delete")

public void solrDelete(@RequestParam("id") String id) throws Exception {

HttpSolrClient solrClient = SolrClient.getClient(solrConfigProperties.getServer);

// 通过id删除 执行要删除的collection(core)

solrClient.deleteById(solrConfigProperties.getCore, id);

// 还可以通过查询条件删除

// solrClient.deleteByQuery(solrConfigProperties.getCore, "查询条件");

// 提交删除

solrClient.commit(solrConfigProperties.getCore);

solrClient.close;

}

本文所用资源汇总:

  • 本文已配置的 Solr7.7.1

  • 本文源码

  • Solr 官网

  • Solr API 官方文档

  • Solr 中文文档(译版)

  • JDK 8Java SE Development Kit 8 下载

  • Solr 7.7.1 压缩包

  • IK 分词 jar 包

  • IK 分词 GitHub 源码

  • 动态词库自动加载

  • 同义词典、扩展词典、停止词典介绍 Blog

  • 创建 Spring boot 项目的网址

-END-

如果看到这里,说明你喜欢这篇文章,请 转发 。同时标星(置顶)本公众号可以第一时间接受到博文推送。 1. 基友说:“自己整一个”HashMap为什么线程不安全? 3. 一致性Hash在负载均衡中的应用60个相见恨晚的神器工具

文章来源:智云一二三科技

文章标题:Spring Boot + Solr 全文检索微服务简易集成

文章地址:https://www.zhihuclub.com/196419.shtml

关于作者: 智云科技

热门文章

网站地图