多层关联规则里的冗余问题,挺让人头疼的,尤其是在数据量大的时候。冗余过滤就是个不错的工具,能帮你把“祖先关系”导致的重复规则过滤掉,逻辑清爽不少。用在那种需要分层挖掘的场景,比如商品分类、用户行为,效果还蛮的。
多层结构的数据,比如商品分“食品-零食-饼干”这几级,多时候你会挖出一堆类似的规则。其实上层已经有了,下层再出来一条,就是冗余。靠人工一个个过?太费劲。用这个过滤方案,效率高不少。
Apriori这种算法你肯定用过吧?配合这类过滤机制一起用,能大大提升输出规则的质量。不只是多,更重要的是准。有些规则看着热闹,其实一点价值都没有,这一步能帮你把水分滤掉。
顺带一提,想深入挖的话,可以看看《挖掘多层关联规则》这篇文章,讲得比较细,还有算法原理的。喜欢上手实操的,也别错过WEKA 教程,一步步带你跑起来。
如果你最近在做电商推荐、社交网络、或者行为轨迹建模这类活儿,强烈建议加上这层过滤逻辑,跑出来的结果更靠谱,老板看了也顺眼多了。