Autoclass 算法的无监督分类方式挺适合数据量不太确定、属性类型混合的情况。基于Bayesian 网络,你不用提前设定分类标签,它会根据你指定的概率分布,自己尝试不同的分类方式,选出几个还不错的结果。嗯,像用户画像、日志数据这种不太规则的场景,还挺顺手的。
连续属性的话,你要自己是正态分布还是别的啥分布;离散属性就简单了,列出所有的取值就行。还有个小技巧,属性之间如果有关联,可以预先设定联合分布,模型效果会更稳定。
Autoclass 比较适合拿来做探索性的,比如你手里有一堆看不懂的数据,不知道该怎么分组,就可以丢给它试试看。响应还挺快,不同类型的数据也比较灵活。
你如果对概率分布不太熟,可以看看这些资料:
如果你习惯用 R 或者 Matlab 写代码,这些相关资料你也可以翻翻:
对了,如果你还不确定无监督分类和监督分类差别在哪儿,推荐你看看这篇对比文章:非监督分类与监督分类流程对比,思路会更清晰。
,Autoclass 算法对于想从零开始了解数据结构的你来说,还是蛮值得一试的。如果你平常做数据挖掘、用户聚类一类的活儿,这套思路会比较对口。