Mining Techniques for Large-Scale Datasets

如果你想深入了解大规模数据集挖掘，是如何那些无法全部装入内存的超大数据，那么这本《大规模数据集挖掘》就挺适合你。它不只是一本理论书，更像是一本实践手册。书中了从分布式系统到 MapReduce 的各种技术，你理解如何创建并行算法，大数据。比如，在讲相似性搜索时，使用了像最小哈希和局部敏感哈希这样的技术，教你如何高效找出相似对象。而且，它还包括了像数据流、Web 应用问题、图等一系列你在大数据中碰到的核心难题。，这本书内容覆盖面广，案例多，适合想学实用技术的读者。

更棒的是，书中的知识不仅限于理论。通过具体的项目和算法，你可以轻松掌握大数据挖掘的方方面面，甚至能你高维度、复杂的数据结构。，对于有一定编程基础的读者来说，这本书不但能提升技术水平，还能激发你对数据挖掘的兴趣。

不过，如果你是刚接触数据科学，最好还是先打好计算机科学基础，是数据结构和算法，会让学习过程更加顺利。