数据挖掘的老牌经典《Data Mining - Practical Machine Learning Tools and Techniques》真的挺值得翻一翻的。书是 Ian Witten 几位老哥写的,从第二版到第四版的内容都覆盖了,讲得挺系统,尤其适合想把机器学习落地到实际项目的前端/数据开发同学。
数据预的那部分讲得细,像数据清洗
、归一化
、特征转换
这些流程都有细讲,读完你对怎么脏数据会有更明确的思路。对于前端在对接 AI 模型或者搞点可视化实验,挺实用。
机器学习算法章节也蛮下功夫的,决策树、支持向量机、KNN、聚类全都安排上了,还带代码例子。你可以直接照着来跑,像WEKA
工具这种也得清楚,动手门槛不高。
模型评估也没落下,交叉验证
、AUC
、ROC
讲得比较直白,哪种算法适合用哪种评估方式说得清清楚楚。对你以后选模型和调参蛮有,比如做个图像识别项目,评估方法选对了,效果差距大。
文本挖掘这块对前端来说也友好,比如你想搞个情感、关键词提取,书里有说怎么非结构化数据,还教你怎么优化搜索结果——对做内容推荐或搜索接口对接的项目有点启发。
大数据也没忽略,像MapReduce
、Hadoop
这些技术栈也稍微带了点,让你知道怎么在分布式环境下搞数据挖掘,虽然前端接触不多,但理解这些底层运行逻辑也不亏。
如果你对机器学习感兴趣、又不想陷太深,可以从这本书入手;尤其是你有项目要用分类
、预测
、异常检测
,直接拿里面的例子改一改就能用上。
延伸阅读也别错过,像这几篇:
如果你平时喜欢边看边练,可以搭配WEKA
试试,书里有详细操作流程,还挺适合快速上手的。