iZENECloud 的挖掘需求离不开这个库。idmlib是一个用 C++写的通用数据挖掘库,挺适合搞算法和推荐系统的开发者。嗯,像关键词提取、相似内容检测、分类生成这些,它都能搞定。关键短语提取那块,了两种方法,一个是基于翻译模型的思路,另一个用到了维基百科的数据,蛮有意思。

重复检测用的是SimHash,你要是搞过网页去重那套,肯定知道 Charikar 的方法。它这里设置了 64 维,够用了。再比如Ctr 预测协同过滤中文查询纠错也都覆盖了,功能确实全,是搞推荐系统那块。

协同过滤是基于项目的增量式算法,挺适合实时推荐需求的。如果你正想上手做一个推荐引擎,可以参考一下相关例子,比如协同过滤商品推荐系统或者Spark 版本也有。

不过有点要注意哦,构建环境最好别选 Ubuntu,编译依赖有点绕。推荐用 CentOSRedhat 这类发行版。因为库之间引用复杂,GCC 版本也得至少是 4.8 才行。

,如果你搞的是数据挖掘相关,是在用 C++ 写推荐、分类或者信息提取系统,那这个库值得一试。