Weka 的 3.6.10 x64 版本,算是我用过挺顺手的数据挖掘工具了,是你要搞机器学习入门或者简单实验的话,真心省事。安装轻便,界面不复杂,功能还挺全——预、分类、聚类、关联规则都能搞定,响应也快,用着不累。
数据预的操作比较齐,比如缺失值补全、标准化、特征选择这些都有,适合清洗杂乱数据。像你从 Excel 里导出来一堆格式不一的数据,丢进去一下就清爽多了。
分类算法内置了不少,像决策树
、SVM
、随机森林
这些,直接勾选就能跑,适合做点快速对比实验。你要是搞教学或者准备 demo,蛮方便。
聚类这块也没少,K-means
、DBSCAN
这些都有,像用户行为、做个客户分群啥的,用它来跑初版模型还不错,结果也能直接可视化。
关联规则模块支持Apriori
和FP-Growth
,做个市场篮子、产品推荐都可以用,挖频繁项集也不费劲。
可视化功能比较好用,你能直观看分布、看聚类效果,连ROC 曲线
都能画,适合和复盘。还有一个Workbench
图形界面,拖拖拽拽就能搭流程,不用写一堆代码。
实验评估部分有点像自动化测试平台,能设交叉验证
、网格搜索
,还能看混淆矩阵,适合模型调优。
开源加分,社区活跃,文档还行。碰到问题去搜一搜论坛,一般都能找到办法。
如果你是刚入门机器学习,或者想快速测试点思路,用 Weka 3.6.10 x64 还挺合适的。想深入了解算法原理的,也可以配合看经典机器学习分类算法详解这类文章,加深理解。