粗糙集与遗传算法结合的数据挖掘方法

粗糙集的属性约简能力，配上遗传算法的全局优化特性，组合在一起用来挖数据，还挺有意思的。这篇 PDF 讲的就是怎么把这两种方法搭一块来搞大规模数据挖掘，结构也挺清楚的，从原理说到怎么应用，尤其对规则提取那块讲得还蛮细。

粗糙集的思路，比较适合那种数据质量不太高的场景，比如缺值多、不确定性强的那种。而且它不用先验知识，直接靠数据本身做判断，干净利落。

再加上遗传算法的那套选择-交叉-变异流程，就能让模型更灵活点，适应性强一点。比如你要从一堆规则里挑出几条“说得过去”的，靠它就行了。

要注意哦，前面几步数据预关键，是离散化和缺失值填补。这些如果没搞好，后面再厉害的算法也没法发力。比如连续属性要先转成离散的，不然粗糙集这边不了。

另外，文中也提了属性简约这块，用粗糙集砍掉那些没啥用的字段，能减少模型的复杂度，提速也。挺适合前期做个粗筛的。

文末还有不少扩展资料，像属性约简、MapReduce 并行这些，想深挖的可以一起看看。

如果你最近在搞数据清洗、规则抽取这些事，又刚好对智能优化算法有点兴趣，那这份 PDF 还挺值得看一眼的。用来拓思路蛮不错的。