WEKA 的分类算法用起来还是挺方便的,尤其是刚接触机器学习的朋友,拿来练手再合适不过了。它把常见的算法都收得蛮全,像朴素贝叶斯、支持向量机、多层神经网络这些,都可以一键试一遍,响应也快,效果看得见。
Bayes 系列的分类器比较适合有明确概率模型的任务,比如邮件分类。NaïveBayes
就是经典的朴素贝叶斯,结构简单,适合上手。而BayesNet
稍微复杂点,多了个结构学习,适合数据之间有因果关系的时候。
Functions 里的分类器也蛮有意思,MultilayerPerceptron
就是多层神经网络,挺适合用来跑图像类任务,虽然慢点但精度还不错。SMO
是用来训练支持向量机的,适合维度高但样本不多的任务,比如文本分类。
Lazy 分类器的思路就更简单了,比如IB1
和IBk
直接用距离来做分类,基本就是 KNN 原理,数据多的时候有点吃性能,但调起来轻松,拿来当 baseline 还不错。
如果你想更深入了解朴素贝叶斯,可以看看贝叶斯公式与朴素贝叶斯这篇文章,讲得挺清楚;还想玩下代码的,可以去瞅瞅朴素贝叶斯 Matlab 代码的资源下载,跑一下更有感觉。
哦对了,如果你本身用 MATLAB 比较多,推荐看看MATLAB 稀疏贝叶斯程序详解,对比着用也挺有意思。
,WEKA 是那种开箱即用的工具,适合拿来快速测试模型效果。如果你刚接触机器学习,不知道从哪下手,可以从WEKA 里的几个经典分类器先练起来。