idmlib C++数据挖掘库

iZENECloud 的挖掘需求离不开这个库。idmlib是一个用 C++写的通用数据挖掘库，挺适合搞算法和推荐系统的开发者。嗯，像关键词提取、相似内容检测、分类生成这些，它都能搞定。关键短语提取那块，了两种方法，一个是基于翻译模型的思路，另一个用到了维基百科的数据，蛮有意思。

重复检测用的是SimHash，你要是搞过网页去重那套，肯定知道 Charikar 的方法。它这里设置了 64 维，够用了。再比如Ctr 预测、协同过滤、中文查询纠错也都覆盖了，功能确实全，是搞推荐系统那块。

协同过滤是基于项目的增量式算法，挺适合实时推荐需求的。如果你正想上手做一个推荐引擎，可以参考一下相关例子，比如协同过滤商品推荐系统或者Spark 版本也有。

不过有点要注意哦，构建环境最好别选 Ubuntu，编译依赖有点绕。推荐用 CentOS、Redhat 这类发行版。因为库之间引用复杂，GCC 版本也得至少是 4.8 才行。

，如果你搞的是数据挖掘相关，是在用 C++ 写推荐、分类或者信息提取系统，那这个库值得一试。