实战派的机器学习书,内容比较扎实,适合你想用 Spark 来跑真实项目的场景。

一上来就是各种实用代码,MLlib的用法讲得清楚,像是分类、回归、聚类这些算法怎么在 Spark 上跑,作者都直接甩例子。

嗯,数学部分不会太多,偶尔提一下概念,但整体是偏工程向的。对数据工程师、AI 实习生来说,挺友好。你看着代码照着跑,一会就能起个简单模型。

还有个小亮点,除了 Spark ML,它还了其他开源库,比如 XGBoostpandas,结合使用效果更强。就像你用 pyspark 跑大数据,转身就能接 pandas 做那样,灵活得。

如果你对 大数据分布式机器学习感兴趣,蛮建议你一读。配合下面这几个资源一起看,效果更好:

如果你用 Spark 写模型写得头大,不妨翻翻这本,就通了。