候选集的支持度计算,其实挺讲技巧的。候选集数量多到吓人,一笔交易能匹配好几个,这时候硬算不现实。用Hash Tree去组织这些候选集就方便多了——内部节点是哈希表,叶子节点挂着项集和支持度。查询的时候靠一个Subset函数,能一下找出交易中包含的所有候选集,效率还不错。适合大批量数据,逻辑也挺清晰。
关联规则支持度计算与Hash Tree优化
相关推荐
关联规则度量:支持度和可信度
规则度量支持度和可信度可用于找出符合最小支持度和可信度条件的规则。
支持度衡量一次交易中同时包含规则中所有项的可能性。
可信度衡量在包含规则中前提项的交易中,结论项出现的条件概率。
例如,若最小支持度为 50%,最小可信度为 50%,则可能获得以下规则:
A → C (支持度:50%,可信度:66.6%)
C → A (支持度:50%,可信度:100%)
这意味着:
购买尿布的客户中有 50% 同时购买了啤酒。
购买尿布和啤酒的客户中有 66.6% 同时购买了啤酒。
购买啤酒的客户中有 50% 同时购买了尿布。
购买尿布和啤酒的客户中有 100% 同时购买了尿布。
算法与数据结构
10
2024-04-30
数据挖掘中支持度递减的关联规则探索
在数据挖掘领域,支持度递减是一个重要的概念。它指的是随着数据集中项目集的大小增加,支持度递减的规则开始显现。这一现象揭示了在大数据背景下关联规则的变化模式。
数据挖掘
13
2024-07-25
关联规则和动态关联规则简介
本内容适合于数据挖掘方向的硕士研究生阅读学习,对关联规则与动态关联规则做了简介。
数据挖掘
12
2024-04-30
基于部分支持度树的关联规则增量更新新算法(2011年)
关联规则挖掘是数据挖掘技术的一种简便实用方法,广泛应用于各个领域。提出了一种基于部分支持度树的关联规则增量更新算法,专为数据库新增数据时最小支持度不变的情况设计。该算法充分利用已挖掘的关联规则和保留的部分支持度树,显著提升了性能。新算法仅需一次数据库部分扫描即可完成更新,进一步提高了效率。实验结果验证了该算法在关联规则更新问题上的有效性和挖掘效率的提升。
数据挖掘
8
2024-07-23
挖掘多层关联规则
挖掘多层关联规则可找出层次化的关联规则,例如:
牛奶 → 面包 [20%, 60%]
酸奶 → 黄面包 [6%, 50%]
数据挖掘
24
2024-05-25
Apriori关联规则算法
Apriori算法是挖掘关联规则的经典算法,效率较高。本算法对Apriori算法进行了改进,提高了效率。
数据挖掘
11
2024-05-25
关联规则分析简介
关联分析挖掘大数据中相关联系,发现规律和模式,应用于商业决策。如购物篮分析、跨品类推荐、货架布局优化、联合促销等,提升销量、改善用户体验。
数据挖掘
15
2024-05-27
支持推荐非空率的关联规则推荐算法优化
现有的关联规则推荐技术在数据提取时主要侧重于关联规则的提取效率,缺乏对冷、热门数据推荐平衡性的考虑和有效处理。为了提高个性化推荐效率和推荐质量,平衡冷门与热门数据推荐权重,对关联规则的Apriori算法频繁项集挖掘问题进行了重新评估和分析,定义了新的测评指标推荐非空率以及k前项频繁项集关联规则的概念,设计了基于k前项频繁项集的剪枝方法,提出了优化Apriori算法且适合不同测评标准值的k前项频繁项集挖掘算法,降低频繁项集提取的时间复杂度。理论分析比较与实验表明,k前项剪枝方法提高了频繁项集的提取效率,拥有较高的推荐非空率、调和平均值和推荐准确率,有效地平衡了冷、热门数据的推荐权重。
数据挖掘
12
2024-07-20
关联规则算法Apriori学习
来学习关联规则算法Apriori吧!
数据挖掘
22
2024-05-25