大数据时代的业务和科研,数据量越来越大,起来也越来越头疼。《Data Mining:Concepts and Techniques 第三版》的特点就是内容挺系统,覆盖范围也广。光看目录就知道,啥数据仓库、数据流挖掘、社交网络挖掘、多媒体数据,都有提到。
算法部分比较实在,不是那种光讲概念不讲落地的书。里面的算法基本都有伪代码,照着改一改,接到项目里的大规模数据集问题不大。像频繁模式挖掘、分类、聚类这些常用套路,全都有讲到。
嗯,内容还挺适合做数据挖掘项目原型开发或者学术研究的。尤其是你想搞对象-关系数据库、空间数据库、多媒体数据库这种偏特殊场景的数据挖掘,可以翻一翻后面的章节,案例和实现细节还挺多。
如果你平时接触Hadoop、ArcGIS、或者搞流式数据的,配合下面这些相关资料一起看效果更好:Hadoop 大数据与挖掘实战、ArcGIS 平台下的大数据与挖掘这些都不错。
,如果你想找一本不光讲理论、还能帮你写代码的数据挖掘入门进阶书,这本还挺值得入手的。哦对了,大数据时候别忘了提前规划好存储和计算资源,不然跑大型挖掘任务的时候容易崩。