批量模式的交叉验证玩法,还挺适合做大数据量的分类模型评估。用Weka的话,像BayesNet
、CrossValidationFoldMaker
这些组件,配置起来还算直观。是配合ArffLoader
,数据导入速度也比较快。想做 10 折交叉验证?加个ClassifierPerformanceEvaluator
,评测结果一目了然。
嗯,图形化展示部分还挺贴心。比如GraphViewer
和TextViewer
,训练完直接看分类效果,省得手写一堆输出逻辑。做完还可以直接导出结果,用CSV
或者ARFF
保存都行,方便后续数据挖掘。
如果你刚开始玩交叉验证,建议先看看这个Weka 批量模式交叉验证教程,步骤讲得比较清楚,少走弯路。再进阶点,可以对比下Spark ml 管道交叉验证、scikit-learn 决策树交叉验证这些,换工具练练手,思路会更开阔。
如果你对不同语言实现感兴趣,像Matlab、EEG KNN 10 折交叉验证这些案例也蛮有参考价值,改改参数就能直接跑。,先把 Weka 的批量模式用顺了,再考虑多工具对比,效率提升还挺的。