Apriori 算法的关联规则挖掘在 Weka 上的实战项目,真的蛮适合初学者上手的。你只要有一个结构还算规整的数据集,比如贷款记录那类,就能直接导进去跑出不少有用的规则。像频繁项集的生成、剪枝这些操作,Weka 都封装好了,点点按钮就能出结果,响应也快。

Apriori 算法在挖掘频繁项集上其实挺靠谱的,尤其适合那种字段离散明确的数据集。它每次只往前推进一步,先挖 1 项集,再是 2 项集,直到没得挖为止。关键点在两个操作:一个是连接步,组合候选项集;另一个是剪枝步,利用“子集不频繁则超集必不频繁”这个原则把没用的过滤掉。

Weka 平台界面友好,操作也不复杂。你可以用图形界面拖拽设置参数,也能直接命令行跑批量。比如你导入Loan.asc后,选好Apriori算法,设置下minSupportminConfidence,点“开始”就能跑。整个过程对新手蛮友好的。

这次我试的是银行借贷数据,字段包括loan_idaccount_iddate这些,跑完之后能挖出贷款金额跟期限的关联,比如说“短期贷款大多是小金额”这种,还挺有洞察力的。

顺手推荐几个扩展阅读,像Apriori 算法挖掘频繁项集Weka 关联规则教程都还不错,看看会更清楚。

如果你手头正好有点离散数据,想练练数据挖掘的手感,不妨把 Weka 和 Apriori 搭配试试。轻松上手,效果还不错。