结巴中文分词在 github 的star有一万多， python 开发的，这里主要介绍的是php中的使用！

一、参考资料：

1、

2、

二、结巴分词特点：

1、支持三种分词模式：

a、精确模式，试图将句子最精确地切开，适合文本分析；

b、全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

c、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

2、支持繁体分词

3、支持自定义词典

三、安装步骤：

使用centos+ngnix+mysql+php环境，使用PuTTY远程服务器，登陆后安装步骤如下（参考资料1内容）：

git clone

cd phpjieba/cjieba

make

cd ..

phpize

./configure –with-php-config=/www/server/php/71/bin/php-config （这里填写自己php-config路径）

make

make install

在对应php.ini中增加类似如下配置信息

[jieba]

extension=/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so

jieba.enable=1

jieba.dict_path=/usr/local/download/jieba71/phpjieba/cjieba/dict

其中/www/server/php/71/lib/php/extensions/no-debug-non-zts-20160303/jieba.so是编辑后产生的文件，

/usr/local/download/jieba71/phpjieba/cjieba/dict是下载解压缩的文件目录文件，确保文件路径正确

最后重启一下服务器；

编译安装后jieba.so的路径截图

四、使用的php代码示例和分词api测试

自己建立的中文分词api：微奇奇软件分词&type=0

其中type=0是默认精确模式，1是全模式，2是搜索模式，搜索模式目前还有点问题

api服务器端处理jieba.php代码：

$word=$_REQUEST[‘word’];

$cutType=$_REQUEST[‘type’];

if($cutType<>’0’&&$cutType<>’1’&&$cutType<>’2′)

$cutType=’0′;

$result = jieba($word,$cutType);

$code=json_encode($result);

echo $code;

在线测试中文分词demo：

五、自定义字典：

直接编辑下载的自定义词库文件/usr/local/download/jieba71/phpjieba/cjieba/dict/user.dict.utf8即可

编辑增加用户词库

分词词库测试demo截图

智云一二三科技

结巴中文分词配合php使用（在linux安装全过程和使用代码）

一、参考资料：

二、结巴分词特点：

关于作者: 智云科技

一、参考资料：

二、结巴分词特点：

给这篇文章的作者打赏

关于作者: 智云科技

相关文章

阿里云免费虚拟主机安装WordPress博客图文教程

PHP框架yaf的优点和缺点

PHP垃圾回收机制的一些浅薄理解

热门文章

1分享新浪图床上传接口源码

2PHP简单实现路由Route功能

3Tideways、xhprof 和 xhgui 打造 PHP 非侵入式监控平台

4centos系统如何查看是否安装了mysql

5curl 工具简述