大数据场景下的去重方案(SimHash & 布隆过滤器)
大数据下的去重一般指的都是模糊去重,通常来讲不是真的去比较两个文件或者段文本,而是通过一些简单方式模糊粗略的比较;一般来讲如果两个文件或者文本完全相同,那么比较结果一定是相等的,但比较结果相等有极小概率两个文件不相等;下面介绍两种常用的算法SimHash 和 布隆过滤器SimHa
大数据下的去重一般指的都是模糊去重,通常来讲不是真的去比较两个文件或者段文本,而是通过一些简单方式模糊粗略的比较;一般来讲如果两个文件或者文本完全相同,那么比较结果一定是相等的,但比较结果相等有极小概率两个文件不相等;下面介绍两种常用的算法SimHash 和 布隆过滤器SimHa