网易 视频云 是网易倾力打造的一款基于云计算的 分布式 多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、 转码 及点播等音视频的PASS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云转载相关文章,与大家分享一下分布式搜索elasticsearch中文分词集成。
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:
下载ik相关配置词典文件到config目录
安装mmseg插件:
下载相关配置词典文件到config目录
分词配置
ik分词配置,在elasticsearch.yml文件中加上
或
这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中
或
mmseg分词还有些更加个性化的参数设置如下
这样配置完后插件安装完成,启动es就会加载插件。
定义mapping
在添加索引的mapping时就可以这样定义分词器
IndexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。
Java mapping代码如下:
定义完后操作索引就会以指定的分词器来进行分词。
测试分词可用调用下面api,注意indexname为索引名,随便指定一个索引就行了
测试elasticsearch分词器
附:
ik分词插件项目 地址 :
mmseg分词插件项目地址:
如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:
作者:laigood
来源:
更多技术分享,请关注 网易视频云官方网站() 或者 网易视频云官方微信(vcloud163) 进行交流与咨询。