信息检索系统

信息检索系统分为信息采集、信息整理、用户查询。

信息采集

网络爬虫：按照一定的规则，自动地抓取万维网信息的程序或脚本。

经过格式化处理之后提取网页信息为构建索引做准备。

整理信息

索引构建：信息检索系统整理信息的过程。

信息检索系统不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。

接受查询

分词算法概述

词是表达语义的最小单位。

分词可以帮助搜索引擎自动识别语句的含义，从而使搜索结果的匹配程达到最高，分词的质量直接影响了搜索结果的准确度。

分词在文件索引的建立过程和用户提交检索过程中都存在。

利用相同的分词器，把短语或句子切分成相同的结果，才能保证检索结果顺利进行。

英文分词的原理

输入文本、词汇分割、词汇过滤(去除停留词)、词干提取（形态还原）、大写转为小写、结果输出。

中文分词原理

中文词与词之间不是用空格分隔的。

中文分词法——词典匹配分词法

按照一定的匹配策略将输入的字符串与机器字典词条进行匹配。

把一个句子从左向右扫描一遍，遇到字典中有的词就标识出来，遇到复合词就找最长词匹配，遇到不认识的字符串则切分为单个词。

中文分词法——词典匹配分词法——分类

扫描方向：正向匹配、逆向匹配、双向匹配

不同长度优先匹配：最大（最长)匹配、最小（最短）匹配

与词性标注过程相配合：单纯分词方法、分词与词性标注相结合

中文分词法——词典匹配分词法——最常用

正向最大匹配（由左到右的方向）

逆向最大匹配（由右到左的方向）

最少切分（每一句中切除的词数最少）

中文分词最大的问题是歧义处理，结合中文语言自身的特点，采用逆向匹配的切分算法，处理的精度高于正向匹配，产生的切分歧义最少。

真正实用的分词系统，都是把字典分词作为基础手段，结合语言的各种其他特征信息来提高切分的效果和准确度。

中文分词法—语义理解分词法

模拟人脑对语言和句子的理解，达到识别词汇单元的结果。

基本模式：把分词、句法、语义分析并行进行，利用句法和语义信息来处理分词的歧义。

包括分词子系统、句法语义子系统、调度系统。

在调度系统的协调下，分词子系统可以获得有关词、句子等的句法和语义信息，模拟人脑对句子的理解过程。

基于语义理解的分词方法需要使用大量的语言知识和信息。

中文分词法—词频统计分词法

基于对中文词语的直接感觉。

词是稳定的字的结合，在中文文章的上下文中，相邻的字搭配出现的频率越多，就越有可能形成一个固定的词。

根据n元语法知识，字与字相邻同时出现的频率或概率能够较好地反映成词的可信度。

无字典分词法或统计分词法。

实际应用的统计分词系统都使用一个基本的常用词字典，把字典分词和统计分词相结合。

基于统计的方法能很好地解决词典未收录新词的问题，即将中文分词中的串频统计和串匹配相结合起来，即发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的特点。

智云一二三科技

信息检索系统分词算法概述

信息检索系统

信息采集

整理信息

接受查询

分词算法概述

英文分词的原理

中文分词原理

中文分词法——词典匹配分词法

中文分词法——词典匹配分词法——分类

中文分词法——词典匹配分词法——最常用

中文分词法—语义理解分词法

中文分词法—词频统计分词法

关于作者: 智云科技

信息检索系统

信息采集

整理信息

接受查询

分词算法概述

英文分词的原理

中文分词原理

中文分词法——词典匹配分词法

中文分词法——词典匹配分词法——分类

中文分词法——词典匹配分词法——最常用

中文分词法—语义理解分词法

中文分词法—词频统计分词法

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

Map和List的几种遍历方式

全网大佬都在用的Java+Python这两套视频学习教程，学习很重要

JavaWeb快速进阶全套教程(程序员必备2020版)：视频+笔记+源码

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述