Autoclass算法Bayesian网络无监督分类应用

Autoclass 算法的无监督分类方式挺适合数据量不太确定、属性类型混合的情况。基于Bayesian 网络，你不用提前设定分类标签，它会根据你指定的概率分布，自己尝试不同的分类方式，选出几个还不错的结果。嗯，像用户画像、日志数据这种不太规则的场景，还挺顺手的。

连续属性的话，你要自己是正态分布还是别的啥分布；离散属性就简单了，列出所有的取值就行。还有个小技巧，属性之间如果有关联，可以预先设定联合分布，模型效果会更稳定。

Autoclass 比较适合拿来做探索性的，比如你手里有一堆看不懂的数据，不知道该怎么分组，就可以丢给它试试看。响应还挺快，不同类型的数据也比较灵活。

你如果对概率分布不太熟，可以看看这些资料：

如果你习惯用 R 或者 Matlab 写代码，这些相关资料你也可以翻翻：

对了，如果你还不确定无监督分类和监督分类差别在哪儿，推荐你看看这篇对比文章：非监督分类与监督分类流程对比，思路会更清晰。

，Autoclass 算法对于想从零开始了解数据结构的你来说，还是蛮值得一试的。如果你平常做数据挖掘、用户聚类一类的活儿，这套思路会比较对口。