分布式模型的灵活调度能力是第三代数据挖掘系统的一大亮点。它能 Internet/Extranet 上那些五花八门的数据源,整合效率挺高的。最关键的是,能直接和操作系统打配合,用起来顺手,不像早期那种还得靠人工同步模型。

模型管理的元数据也比较贴心,支持first class的管理方式,也就是你可以把多个预测模型当成一等公民来用,不用担心跨系统调用卡壳。这点在搞多数据源预测的时候省心,尤其是你在维护异构系统的时候。

想多了解点?可以看看分布式数据挖掘模型 DSVM,异构数据那块讲得还挺细 → 点这里

还有BigTable在云计算环境下怎么搞数据挖掘也蛮有意思 → 点这里

后台整合用的分布式数据库系统RBAC 权限模型这两个资源也挺值得一看 → 数据库系统RBAC 模型

如果你正好在做跨系统的预测模型管理,或者搞的是数据中台、智能推荐这类场景,可以优先考虑这种第三代系统,稳定、通用,还挺智能的。