再次扫描 D 的候选项计数,蛮适合用来理解 Apriori 算法的 L2 生成过程。里面的{I1, I2} 4{I2, I5} 2这类格式,挺直观的,看一眼就知道每组项的支持度。用它来辅助写个频繁项集挖掘的小模块,效率还不错。

支持度计数的结构清晰,你可以直接用来验证自己的候选集生成逻辑。比如用Python写个dict统计器,对照这份数据扫一遍,准确率一看便知。

嗯,如果你是在搞Apriori算法,或者在调试频繁项集脚本,这个资源还挺方便。再配合Apriori 算法中候选项集的连接问题,思路会更清晰。

页面里也列了不少相关文章,像L2 快照数据垂直数据格式这些,都能拓展点子。如果你在做课程作业或者小工具原型,直接参考就能用。

提醒一句:使用前最好把原始支持度计数清洗一下,比如统一格式成[('I1','I2'), 4]的形式,写代码好。