PySpark 的机器学习书,页面挺厚,532 页,但内容讲得还挺实在,尤其是你对大数据和 Spark 有兴趣的话,绝对值得啃一啃。这是 2017 年出的第二版,第一版是在 2015 年出的,升级内容不少。

PySparkSpark MLlib怎么结合,书里讲得比较系统。比如用RandomForestClassifier做分类任务,流程也清晰,管道(Pipeline)也都搭配得当,挺适合从传统 ML 往分布式过渡的人。

Rajdeep Dua 他们写得还不错,代码量比较多,配套的数据集也能直接跑起来,省事不少。响应也快,部署也讲了点,虽然略简单,但够用。

哦对了,如果你手头用的是 2.x 版本的 PySpark,这本书匹配得刚刚好。想学点实战项目的,也能从里面学到不少套路,比如电影评分、文本分类这些。

另外我也整理了一些相关文章,如果你想拓展一下:

如果你想把 ML 模型跑在分布式上,不妨翻翻这本。入门、进阶都能照顾到,算是一本还挺扎实的资源。