数据挖掘的入门书挺多的,但《Data Mining: Practical Machine Learning Tools and Techniques》算是比较实用的一本。Weka 的操作讲得细,适合刚接触机器学习的前端同行。用起来也不复杂,安装完直接就能上手,不少算法都有图形界面支持,点点按钮就能跑出结果来,蛮方便的。
数据的工作,有时候就是要跑些模型看看规律。Weka支持分类、聚类、回归这些常见方法,还能做特征选择和交叉验证,不用写一行代码,响应也快。像你想试试决策树或支持向量机,直接选算法点运行就行,结果图和评估指标全都有,挺适合平时做点快速原型。
书里不少例子讲得还挺接地气的,像怎么清洗数据、怎么挑变量,还有模型调参的一些小技巧,都是能马上用到的。尤其是做前端又要带点数据任务时,Weka 这种可视化工具比写 Python 轻松太多,别说,不少场景还能拿来配合你前端做的界面展示。
如果你平时写前端但又对数据感兴趣,或者你要和数据科学那边配合做数据产品,这本书可以看看。顺带把 Weka 熟个七七八八,做些原型和演示也有底气。