数据挖掘标准里的 PMML 规范,挺适合做模型互通用的。如果你做的是模型导出、模型部署这块,那这个标准就蛮值得了解下。用的是 XML 格式,解析起来不复杂,像用DOM4J
或者Java
的 XML 库都能搞定。
PMML这套规范最大的优点就是统一。不同的数据挖掘工具之间,用 PMML 格式交换模型文件,省了不少麻烦。比如你用 R 训练模型,部署的时候想用 Java,直接转成 PMML 就行,省得重写逻辑。
CRISP-DM这个流程也比较经典,适合做数据项目的全流程规划。你要是新带项目,或者想梳理清楚数据挖掘的步骤,按照这个来走,比较靠谱。相关文档我给你列在下面了,包含流程、视图解析,还有中文版的优化版,资源挺全的。
还有几个 API 相关的也可以顺便看看,比如Java Data Mining API
,还有Impala
和MapReduce
的实现。如果你是在做数据平台开发,这几块的资料也蛮实用的,尤其是带pom.xml
配置的,对 Java 工程师友好。
,如果你是搞数据挖掘的,或者正好在做模型管理、部署那块的功能,PMML 和 CRISP-DM 可以说是“标配”了。顺带推荐你看下DOM4J 操作 XML 的库,跟 PMML 搭配着用挺顺。
如果你正打算把模型从开发环境往线上推,建议你从PMML
开始了解;如果你刚起步搞一个数据项目,CRISP-DM 流程图先看一遍,不亏。