基于支持度期望的关联,蛮适合做深度数据挖掘的朋友,尤其你想挖点“看起来不频繁但其实有料”的关联关系时,挺有用。它不是简单看出现频率,而是看是不是比“你原本预期的”还少多。嗯,挺像找那些“悄咪咪”的隐藏逻辑。

支持度期望的技术有点像挖反向宝藏——只有当一个模式的实际支持度小于它理论上应该有的期望值时,才说“这玩意值得看”。换句话说,别人都不太关注的地方,说不定才藏着你要的答案。

有两种玩法:一种是基于概念分层,比如你看“水果”下的“苹果”和“香蕉”,会考虑整个分类的背景;另一种是基于间接关联,就是两个表面没啥关系的项,通过第三方“搭上线”。

推荐你搭配一些示例看看,比如这个关联数据示例,讲得挺清楚的;还有《RapidMiner》第 8 章也提到了这块内容,适合快速上手。

要注意的是,这种方法对数据要求高,是你要有对“期望支持度”的建模能力。用起来挺有门槛,但只要搞懂了,多冷门发现就能浮出水面。

如果你正在研究反向模式挖掘间接关联规则或者想提升推荐系统的“解释力”,可以深入看看,挖起来还挺香的。