如果你想深入了解大规模数据集挖掘,是如何那些无法全部装入内存的超大数据,那么这本《大规模数据集挖掘》就挺适合你。它不只是一本理论书,更像是一本实践手册。书中了从分布式系统到 MapReduce 的各种技术,你理解如何创建并行算法,大数据。比如,在讲相似性搜索时,使用了像最小哈希和局部敏感哈希这样的技术,教你如何高效找出相似对象。而且,它还包括了像数据流、Web 应用问题、图等一系列你在大数据中碰到的核心难题。,这本书内容覆盖面广,案例多,适合想学实用技术的读者。
更棒的是,书中的知识不仅限于理论。通过具体的项目和算法,你可以轻松掌握大数据挖掘的方方面面,甚至能你高维度、复杂的数据结构。,对于有一定编程基础的读者来说,这本书不但能提升技术水平,还能激发你对数据挖掘的兴趣。
不过,如果你是刚接触数据科学,最好还是先打好计算机科学基础,是数据结构和算法,会让学习过程更加顺利。