粗糙集的属性约简能力,配上遗传算法的全局优化特性,组合在一起用来挖数据,还挺有意思的。这篇 PDF 讲的就是怎么把这两种方法搭一块来搞大规模数据挖掘,结构也挺清楚的,从原理说到怎么应用,尤其对规则提取那块讲得还蛮细。

粗糙集的思路,比较适合那种数据质量不太高的场景,比如缺值多、不确定性强的那种。而且它不用先验知识,直接靠数据本身做判断,干净利落。

再加上遗传算法的那套选择-交叉-变异流程,就能让模型更灵活点,适应性强一点。比如你要从一堆规则里挑出几条“说得过去”的,靠它就行了。

要注意哦,前面几步数据预关键,是离散化缺失值填补。这些如果没搞好,后面再厉害的算法也没法发力。比如连续属性要先转成离散的,不然粗糙集这边不了。

另外,文中也提了属性简约这块,用粗糙集砍掉那些没啥用的字段,能减少模型的复杂度,提速也。挺适合前期做个粗筛的。

文末还有不少扩展资料,像属性约简MapReduce 并行这些,想深挖的可以一起看看。

如果你最近在搞数据清洗、规则抽取这些事,又刚好对智能优化算法有点兴趣,那这份 PDF 还挺值得看一眼的。用来拓思路蛮不错的。