多层关联规则里的冗余过滤,挺适合想深入数据挖掘的你。规则太多看得眼花?其实多是祖孙关系里来的重复项,过滤下更干净明了。
用Apriori算法来挖掘这些关联规则,挺常见的。不过一不小心就挖出一堆重复信息。比如你有“买了牛奶就买面包”,那“买了牛奶也买了全麦面包”也会被算进来,但其实意思差不多。嗯,过滤掉祖先那种重复规则,看起来会清爽多。
再加个WEKA工具,界面友好,操作也简单。不管你是用户购物行为,还是想做推荐系统,套上这套逻辑准没错。像是用min_confidence
来限制规则,或是设置层级结构分类,效果都蛮直观。
如果你还不太熟,可以先看看这些资料:挖掘多层关联规则,或者去翻翻WEKA 关联规则挖掘教程。操作示例和算法都还不错,入门容易上手快。
要提醒一句,多层数据时结构要想清楚,比如怎么分类、怎么分层,别乱套标签,不然挖出来的东西你自己都看不懂。如果你正做多维数据,推荐你用这套过滤逻辑加点权重信息,输出结果更靠谱。