知识流界面的拖拽式设计挺方便的,把 WEKA 里的组件像拼积木一样往画布上一摆,再连一连,流程就出来了。适合你想边边看效果的时候用,尤其是搞分类、聚类那类事儿的时候,效率挺高。

批量和增量都能搞定,不过要注意,增量不在探索者界面里用,要切到知识流才行。比如你在做实时数据,用NaiveBayesUpdateable这种分类器就比较合适,数据一条条喂进去,模型也能不断更新,挺灵活的。

说几个支持增量学习的分类器,像NaiveBayesMultinomialUpdateableIBkKStarLWL这些,基本能应付大部分场景,是海量文本或者传感器数据那种场景,比较靠谱。

你要是喜欢折腾点高级玩法,还可以试试把 WEKA 和 Matlab 接口连起来。我之前用MatlabWekaInterface做过图像识别的模型训练,挺顺的。文档在这里,讲得还算清楚。

其他教程也别错过,像完整的知识流教程增量模式教程,内容都还蛮实在的,基本上你照着来,搞个小项目没啥问题。

哦对了,大数据量的时候注意内存设置,不然跑到一半容易崩。你可以试着调下-Xmx参数,比如-Xmx2g,内存大点,跑起来稳点。

如果你是搞数据挖掘分类建模或者做教学演示的,可以把知识流当作你上手 WEKA 的主界面用,逻辑清晰,还挺好调试。