Apache Spark 的进阶宝典《Mastering Apache Spark》还挺值得推荐给搞大数据的你。内容覆盖面广,从基础的Spark Core到实战级的Structured StreamingMLlibGraphX都有讲,细节拉满。是机器学习那一块,ML Pipelines搭建工作流挺有意思,像StringIndexerTokenizer这种工具用起来贼顺手。书里还讲了模型评估和调优,像CrossValidatorBinaryClassificationEvaluator这些都讲得明白。

用 Spark 做流?书里有详细例子,结合Structured Streaming模块,能搞定实时数据。而且它还聊到了Spark SQL,你要是平时写 SQL 比较多,用这个模块挺顺的,支持结构化查询,响应也快。

另外,像模型保存加载的ML Persistence也有说,搞完训练直接持久化,方便后期部署。嗯,整本书就像老司机带着你走完整个 Spark 生态圈,边学边练,实用。

如果你正好在搭建机器学习工作流,或者搞大数据实时的项目,可以翻一翻这本,收获还挺多。