频繁项集挖掘是数据挖掘的重要应用,但庞大的频繁项集数量限制了其实际应用。为减少频繁项集数量,使其更易于应用,提出一种基于格结构的频繁项集精简模型,并证明该方法产生的支持度误差范围。在此基础上,提出模糊等价类精简表示算法FEC。实验结果表明,该方法在显著减少频繁项集数量的同时,能有效控制支持度误差,与Index-Meta算法相比,产生的支持度误差更小。因此,基于模糊等价类的频繁项集精简表示模型及FEC算法具有较高应用价值。
基于模糊等价类的频繁项集精简表示方法研究
相关推荐
基于有向项集图的最大频繁项集挖掘算法
本算法基于有向项集图存储事务数据库中频繁项集信息,采用三叉链表结构组织有向项集图,并在此基础上提出最大频繁项集挖掘算法。该算法一次扫描事务数据库,有效减少I/O开销,适用于稀疏和稠密数据库的最大频繁项集挖掘。
数据挖掘
16
2024-05-31
Apriori基于MapReduce的频繁项集挖掘
基于 MapReduce 的 Apriori 算法代码,用 Hadoop 干了件挺实用的事儿——并行挖频繁项集。Apriori 都知道,老牌的关联规则算法了,逻辑不复杂但跑起来慢,尤其数据一大就吃不消。这个实现把它拆成Mapper和Reducer,分布式并行跑,效率高不少。你只要关注两块:第一轮用AprioriPass1Mapper把事务里的每个项都拎出来,频次都设成 1;后面AprioriReducer再来聚合,搞清楚哪些项是“热门款”。逻辑清晰,结构也干净。
Hadoop
0
2025-06-16
并行频繁项集挖掘算法的优化研究
传统的挖掘频繁项集的并行算法存在节点间负载不均衡、同步开销过大、通信量大等问题。针对这些挑战,提出了一种名为多次传送重新分配数据的并行算法(MRPD)。在MRPD算法中,第l步将数据库重新划分成多个组,并根据各节点的需求多次传送这些组。各节点在异步地计算完整组后,可以得到所有频繁项集。理论分析和实验结果均表明,MRPD算法在优化并行频繁项集挖掘中具有显著效果。
数据挖掘
16
2024-07-16
基于有序FP-tree的最大频繁项集挖掘
基于有序FP-tree的最大频繁项集挖掘
概念提出: 完全前缀路径、有序FP-tree
有序FP-tree构建: 根据数据项所在层级建立
数据表示: 利用有序FP-tree表示数据
算法提出: MFIM算法,利用有序FP-tree中的完全前缀路径进行最大频繁项集挖掘
算法优化: 利用完全前缀路径对挖掘算法进行优化
实验结果: 对于浓密数据集中的长模式挖掘具有良好性能
数据挖掘
18
2024-05-25
数据挖掘论文研究基于FP-Tree的新型频繁项集挖掘算法
在数据挖掘领域,发现频繁项集是关键问题之一。提出了一种名为FP-SPMA的新型算法,基于FP-Tree结构,通过共享前缀和前瞻剪枝,显著提升了算法效率。相较于传统方法,该算法无需递归构造条件模式树,有效压缩了事务数据库。
数据挖掘
11
2024-07-17
基于频繁项集的时态数据挖掘算法2003年
频繁项集的挖掘一直是数据里的大热门,尤其是在时态数据时。这篇文章研究了一个挺实用的算法,通过结合频繁项集和时态约束来挖掘关联规则。这种方法适合用在商品销售、股票价格预测等领域。而且,文章还贴心地给了一个股票数据的实际案例,感觉接地气。如果你对频繁项集或者关联规则感兴趣,这绝对值得一读!
数据挖掘
0
2025-06-16
频繁项集连接步骤的约束条件
假设 l1 和 l2 是频繁 (k-1)-项集集合 Lk-1 中的两个项集,li[j] 表示项集 li 的第 j 个项。为简化讨论,假设事务或项集中的项按字典序排序。在执行 Lk-1 和 Lk-1 的连接操作 (Lk-1 ∞ Lk-1) 时,只有当 Lk-1 中的两个元素满足前 (k-2) 个项相同的前提条件时,才能进行连接。
数据挖掘
14
2024-05-27
垂直数据格式挖掘频繁项集
垂直数据格式挖掘频繁项集可避免生成候选频繁项集,进而节省CPU开销。
数据挖掘
20
2024-05-25
HPFP-Miner 新型并行频繁项集挖掘算法研究论文
HPFP-Miner是一种创新的并行频繁项集挖掘算法,针对数据挖掘中的重要基础问题进行了深入研究。该算法由陈晓云和何艳珊提出,通过优化数据扫描过程,显著提升了效率。
数据挖掘
13
2024-07-23