频繁项集的挖掘是数据挖掘中的核心问题之一,在多个关键数据挖掘任务中至关重要。引入了一种名为N-list的新型垂直数据表示形式,灵感源自于类似FP-tree的编码前缀树(PPC-tree)。N-list存储了频繁项集的关键信息,通过该数据结构,我们提出了一种高效的挖掘算法PrePost,能够有效地发现所有的频繁项集。PrePost算法的高效性源于几个关键因素:N-list的紧凑性,基于交集的项目支持计数转换,以及利用N-list的单路径属性直接发现频繁项集。我们在多种真实和合成数据集上对PrePost算法进行了实验评估,并与四种先进算法进行了比较,结果显示PrePost算法在大多数情况下表现最优。尽管在处理稀疏数据集时会消耗更多内存,但其速度仍然超群。
一种创新的基于N-list的频繁项集挖掘算法
相关推荐
FP增长算法:一种高效的频繁项集挖掘技术
FP增长算法是一种用于发现频繁项集的数据挖掘技术,它摒弃了传统的“产生-测试”范式,而是利用一种名为FP树的紧凑数据结构来组织数据,并直接从FP树中提取频繁项集。
数据挖掘
12
2024-05-16
基于有向项集图的最大频繁项集挖掘算法
本算法基于有向项集图存储事务数据库中频繁项集信息,采用三叉链表结构组织有向项集图,并在此基础上提出最大频繁项集挖掘算法。该算法一次扫描事务数据库,有效减少I/O开销,适用于稀疏和稠密数据库的最大频繁项集挖掘。
数据挖掘
16
2024-05-31
Jaya一种创新的优化算法
介绍了一种简单但强大的优化算法,适用于解决有约束和无约束的优化问题。所有基于进化和群体智能的算法都是概率算法,需要共同的控制参数,如种群规模、世代数、精英规模等。不同的算法除了共同的控制参数外,还需要特定的算法参数。例如,GA使用变异概率、交叉概率和选择算子;PSO使用惯性权重、社会和认知参数;ABC使用围观蜂数、雇佣蜂数、侦察蜂数和限制数;HS算法使用和声记忆考虑率、音调调整率和即兴次数。其他算法如ES、EP、DE、SFL、ACO、FF、CSO、AIA、GSA、BBO、FPA、ALO、IWO等也需要对各自的特定参数进行优化。算法特定参数的适当调整对算法性能非常关键,而不当的调整可能导致计算量
Matlab
10
2024-09-25
数据挖掘技术一种高效的最大频繁模式挖掘算法
挖掘最大频繁模式是数据挖掘中的核心问题之一。提出了一种快速算法,利用前缀树压缩数据存储,通过优化节点信息和节点链,直接在前缀树上采用深度优先策略进行挖掘,避免了传统条件模式树的创建,显著提升了挖掘效率。
数据挖掘
13
2024-07-20
Apriori基于MapReduce的频繁项集挖掘
基于 MapReduce 的 Apriori 算法代码,用 Hadoop 干了件挺实用的事儿——并行挖频繁项集。Apriori 都知道,老牌的关联规则算法了,逻辑不复杂但跑起来慢,尤其数据一大就吃不消。这个实现把它拆成Mapper和Reducer,分布式并行跑,效率高不少。你只要关注两块:第一轮用AprioriPass1Mapper把事务里的每个项都拎出来,频次都设成 1;后面AprioriReducer再来聚合,搞清楚哪些项是“热门款”。逻辑清晰,结构也干净。
Hadoop
0
2025-06-16
一种高效挖掘最大频繁模式的新算法(2006年)
挖掘最大频繁模式是多种数据挖掘应用中的关键问题。提出一种新算法,利用前缀树压缩数据存储,并通过深度优先策略直接在前缀树上进行挖掘,避免了条件模式树的创建,大幅提升了挖掘效率。该算法调整节点信息和节点链,采用高效的策略处理数据集,以应对大规模数据挖掘的需求。
数据挖掘
15
2024-08-31
一种用于挖掘频繁模式的高性能算法:LPS-Miner
我们提出了一种名为 LPS-Miner 的高效数据挖掘算法,用于挖掘事务数据库中的频繁模式。LPS-Miner 算法基于模式增长原理,并采用了...
数据挖掘
16
2024-05-27
基于频繁项集的时态数据挖掘算法2003年
频繁项集的挖掘一直是数据里的大热门,尤其是在时态数据时。这篇文章研究了一个挺实用的算法,通过结合频繁项集和时态约束来挖掘关联规则。这种方法适合用在商品销售、股票价格预测等领域。而且,文章还贴心地给了一个股票数据的实际案例,感觉接地气。如果你对频繁项集或者关联规则感兴趣,这绝对值得一读!
数据挖掘
0
2025-06-16
并行频繁项集挖掘算法的优化研究
传统的挖掘频繁项集的并行算法存在节点间负载不均衡、同步开销过大、通信量大等问题。针对这些挑战,提出了一种名为多次传送重新分配数据的并行算法(MRPD)。在MRPD算法中,第l步将数据库重新划分成多个组,并根据各节点的需求多次传送这些组。各节点在异步地计算完整组后,可以得到所有频繁项集。理论分析和实验结果均表明,MRPD算法在优化并行频繁项集挖掘中具有显著效果。
数据挖掘
16
2024-07-16