知识流界面的拖拽式设计挺方便的,把 WEKA 里的组件像拼积木一样往画布上一摆,再连一连,流程就出来了。适合你想边边看效果的时候用,尤其是搞分类、聚类那类事儿的时候,效率挺高。
批量和增量都能搞定,不过要注意,增量不在探索者界面里用,要切到知识流才行。比如你在做实时数据,用NaiveBayesUpdateable这种分类器就比较合适,数据一条条喂进去,模型也能不断更新,挺灵活的。
说几个支持增量学习的分类器,像NaiveBayesMultinomialUpdateable
、IBk
、KStar
、LWL
这些,基本能应付大部分场景,是海量文本或者传感器数据那种场景,比较靠谱。
你要是喜欢折腾点高级玩法,还可以试试把 WEKA 和 Matlab 接口连起来。我之前用MatlabWekaInterface
做过图像识别的模型训练,挺顺的。文档在这里,讲得还算清楚。
其他教程也别错过,像完整的知识流教程、增量模式教程,内容都还蛮实在的,基本上你照着来,搞个小项目没啥问题。
哦对了,大数据量的时候注意内存设置,不然跑到一半容易崩。你可以试着调下-Xmx
参数,比如-Xmx2g
,内存大点,跑起来稳点。
如果你是搞数据挖掘、分类建模或者做教学演示的,可以把知识流当作你上手 WEKA 的主界面用,逻辑清晰,还挺好调试。