哈希算法的相似度检测功能,确实挺实用,尤其是你想比较两个文档到底有多像的时候,效果还不错。这个资源是基于斯坦福 CS246 那门经典课出的书,内容讲得清楚,代码也比较接地气,适合直接上手跑跑看。

文档相似度这块,最常用的就是MinHash局部敏感哈希(LSH)。嗯,说白了,就是让你不用全文比对,也能快速判断哪些文档“长得像”。对搞爬虫、推荐系统、或者做去重的你来说,蛮省事的。

你要是懒得翻教材,直接看书也行——The Mining of Massive Datasets这本书就挺合适。而且它官方就能免费下载,良心哦,还能用折扣码MMDS20买纸质版。顺带一提,书后面还有推荐阅读的参考资料,扩展知识也方便。

啦,相关的资源也别错过,比如那份讲图论结构的 PPT、或者用Matlab写小项目的代码,都蛮有参考价值的。平时做课设或者写 demo 挺能帮上忙。链接我放下面了,记得收藏一下。

如果你刚好在搞文档,或者做搜索引擎、推荐系统相关的模块,不妨试试哈希算法这套思路,效率高,效果也还行。用之前,记得检查下文本预步骤,像分词、去停用词这类,都会影响相似度计算哦。