分布式大数据挖掘的朋友,如果你正好在找个靠谱的关联规则挖掘实现,不妨看看这个基于AprTidRec 算法的系统,挺实用的。它改进了老掉牙的 Apriori,少了剪枝,过程更轻巧,对大规模数据集也游刃有余。
用的是局部到全局的通信方式,先各自干活儿,再汇总结果。这种方式对数据分布广的情况友好,能少多无用的候选项,效率高出不少。代码结构也清晰,逻辑分明,调试起来不会太费劲。
系统本身还算蛮稳定的,数据量一大也不怂。每个节点算自己的频繁项集,合并结果,不容易出错。对你要做电商推荐、用户行为这些场景,挺合适的。
另外,作者还整理了一些相关技术文章,像Apriori 算法、CanTree 优化、Spark 计算框架,都可以当补充知识点看一看。
如果你对关联规则挖掘已经有些了解,想扩展到分布式架构,这个项目真心值得一试。哦对了,别忘了关注下支持度和可信度这些核心指标,能帮你更好地判断规则价值。