韩家炜的《数据挖掘:概念与技术》是那种看起来学术范挺浓,但读起来其实挺接地气的一本书。书里讲得比较全,从啥是数据挖掘到怎么在数据库、数据仓库里动手挖,一步步走得蛮细。
六大功能挺有代表性,像分类和预测、聚类这些,在做推荐系统、用户画像、甚至异常检测时都能派上用场。你如果碰到啥项目有点数据量,这部分内容值得翻翻。
数据预部分讲得比较实在,啥清洗、转化、规约这些,没绕弯子,举的例子也贴近实际。别小看预,搞不好后面模型再牛也没用。
技术上涵盖挺多的,像决策树、神经网络、支持向量机,不是只讲理论,书里会结合实际案例给你讲怎么落地。你如果平时玩 Python 里的sklearn
或者pandas
,再来对比看看书里的思路,理解会更透。
还有一点蛮实用的,书里提到了OLAP和数据仓库相关的知识,做前端 BI 或者大数据可视化的,看看后端数据是怎么来的,也会有。逻辑结构上也讲到了数据挖掘系统的组成,引擎、界面、查询语言这些东西,都有交代。
你如果最近在搞可视化、数据面板、后台啥的,这本书不是那种速通手册,但绝对是能沉下来慢慢啃的好东西。顺便附上两篇相关文章,想进一步看聚类的话,可以点这:聚类综述和聚类算法。
如果你最近有数据或者数据可视化的活,可以先翻翻书里的数据预和分类/聚类章节,找找灵感还挺管用。