数据挖掘系统的结构像是一套完整的流水线,从数据仓库开始,经过清洗、集成,再到挖掘引擎,输出结果图形。挺适合你想快速搭个数据系统的时候用。整个流程分工清晰,哪部分出问题都好排查。
数据清洗用得多的,像是DataCleaner、Kettle和OpenRefine,清洗字段、去重、过滤脏数据都挺方便。尤其是OpenRefine,界面友好,适合新手上手;Kettle就比较适合你做 ETL 自动化。
数据挖掘引擎
部分,如果你打算用MapReduce来跑大数据,那可以看看那个招聘案例的数据清洗流程,思路挺清晰。
图形接口这块,推荐用 web 前端接一下 API,像用React
做可视化展示,响应也快,代码也好维护。
如果你刚好在做数据仓库的结构设计,又想顺手把挖掘和清洗一起串上,蛮推荐你把这些工具试一轮,看哪套组合最合适你项目的节奏。