Hadoop基于负载均衡的FP-Growth并行改进算法

基于 Hadoop 的负载均衡 FP-Growth 并行算法，了传统串行算法大数据时内存吃紧、频繁项太多的问题。它用上了 Hadoop 的分布式能力，配合数据分片+负载均衡，效率上去了，量也撑得住。

大数据平台里的频繁项集挖掘，你会发现串行 FP-Growth 一跑就容易卡死，内存爆掉也不是新鲜事。这个改进版用了Hadoop的MapReduce思路，把大事务集切成小块来跑，基本不会崩。

比较巧的是，算法在分片的同时引入负载均衡，避免了某些节点超载拖慢整个任务。尤其在数据量级别破百万之后，这个优化就了。

另外你要是想深入了解类似方案，可以看看这些：

如果你平时和Hadoop、FP-Growth、大数据挖掘打交道比较多，那这个并行版真的可以试试。部署不复杂，思路也清楚，挺适合线上场景的。