理解文本编码,ASCII、Unicode、UTF8、字节序和乱码

位作为单位太小,为了便于使用,通常使用字节来表示二进制。无法转换的文字重复后,字节就是”EF BF BD EF BF BD”,这便恰好是是锟斤拷的GB2312编码。

从0到1,了解NLP中的文本相似度

时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章。为了更好的衡量出AI文章的可用度,在这儿就会需要存有一个反馈的环节,来看看用户润色后的文章与原始AI文章之间的区别是多大。

「算法笔记」判断两个文本的相似度simhash算法

在项目中,有时客户需要判定两个文本的差异比较,求出差异的内容。二进制串A 和 二进制串B 的海明距离 就是 A xor B 后二进制中1的个数。

文本分析初学者教程:用Python实现垃圾邮件过滤器

本文介绍了如何通过Python和scikit-learn实现垃圾邮件过滤的一种方法。文本挖掘是一个广

地区站内链优化(PHP随机锚文本)

经常看到一些网站拥有不少的城市站点,或是二级域名,或是栏目,亦或是页面,基本上都是用了内链优化技巧,也就是将其他站点的锚文本链接随机放到页面底部。

手把手教你用 python 和 scikit-learn 实现垃圾邮件过滤

帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。

网站地图