标签： simhash

SimHash算法

SimHash算法可计算文本间的相似度，实现文本去重。文本相似度的计算，可以使用向量空间模型，即先对文本分词，提取特征。

golang 2022年8月26日点赞(1)评论关闭阅读(330)

在项目中，有时客户需要判定两个文本的差异比较，求出差异的内容。二进制串A 和二进制串B 的海明距离就是 A xor B 后二进制中1的个数。

golang 2022年8月11日点赞(0)评论关闭阅读(223)

大数据下的去重一般指的都是模糊去重，通常来讲不是真的去比较两个文件或者段文本，而是通过一些简单方式模糊粗略的比较；一般来讲如果两个文件或者文本完全相同，那么比较结果一定是相等的，但比较结果相等有极小概率两个文件不相等；下面介绍两种常用的算法SimHash 和布隆过滤器SimHa

golang 2022年7月9日点赞(1)评论关闭阅读(419)

算法简介simHash是用来网页去重最常用的hash方法。算法步骤simhash算法分为5个步骤：分词、hash、加权、合并、降维。

golang 2022年6月13日点赞(0)评论关闭阅读(557)