完整数据挖掘流程的梳理工具,Pipeline-Mineria-De-Datos就是那种看起来平平无奇、用起来却真香的资源。它不绑定某种语言,也不硬塞某套方法论,思路是清楚的,逻辑也够干净。

现代开发真离不开数据,尤其做推荐系统、用户行为、业务决策等,数据挖掘的套路必须熟。而这个项目的好处就在于,它像一个老司机手把手带你过一遍流程,从数据采集、清洗、建模到,每一步都有说法。

像是你平时拿到一堆杂乱的数据,不知道从哪下手,翻翻这个项目的结构思路,基本能找到点头绪。不强调用Python还是R,但你要用这些工具上手也完全没问题。

我比较喜欢它里面对于数据清洗特征选择的拆解。没绕圈子,就是讲“你要搞明白啥对模型有用,啥是噪音”,一句话点醒梦中人。

还有一点挺贴心的,资源附带了一些推荐文章,比如数据挖掘综述,对新手来说也蛮友好,不会一上来就懵圈。

如果你最近在搞机器学习数据相关的项目,又想系统捋一遍流程,不妨先看下这个资源,思路捋顺了,再去挑工具和算法也不迟。