标签：文本

理解文本编码，ASCII、Unicode、UTF8、字节序和乱码

位作为单位太小，为了便于使用，通常使用字节来表示二进制。无法转换的文字重复后，字节就是”EF BF BD EF BF BD”，这便恰好是是锟斤拷的GB2312编码。

php 2022年8月25日点赞(2)评论关闭阅读(2,137)

时间来到了9102年，也是项目相关，涉及到了一些AI写作相关的功能，为客户生成一些素材文章。为了更好的衡量出AI文章的可用度，在这儿就会需要存有一个反馈的环节，来看看用户润色后的文章与原始AI文章之间的区别是多大。

golang 2022年8月25日点赞(0)评论关闭阅读(394)

在项目中，有时客户需要判定两个文本的差异比较，求出差异的内容。二进制串A 和二进制串B 的海明距离就是 A xor B 后二进制中1的个数。

golang 2022年8月11日点赞(0)评论关闭阅读(218)

本文介绍了如何通过Python和scikit-learn实现垃圾邮件过滤的一种方法。文本挖掘是一个广

golang 2022年7月25日点赞(1)评论(1)阅读(509)

经常看到一些网站拥有不少的城市站点，或是二级域名，或是栏目，亦或是页面，基本上都是用了内链优化技巧，也就是将其他站点的锚文本链接随机放到页面底部。

php 2022年7月5日点赞(1)评论关闭阅读(365)

帮助下，包括情绪分析，文件分类，话题分类，文本总结，机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。

golang 2022年6月29日点赞(1)评论关闭阅读(406)