Spark 2.3.1 的离线文档,挺适合用来查 API、翻模块逻辑的。压缩包里是完整的官方文档,放到本地随时查,尤其网络不稳或者在服务器环境下,贼方便。

RDD是 Spark 最基础的东西,说白了就是可分布存储的只读数据集,操作全靠transformationaction。写个 Map 或者 Filter,再用collect()就能跑出结果。

DataFrameDataset也蛮实用,尤其你用 Scala 或者 Java,类型安全、性能优化都做得不错。和HiveParquet这些打交道时,Spark SQL也派得上用场,能写 SQL 查,还能链式用 API 搞事。

流部分靠Spark Streaming,以前老靠 DStream,现在也能直接对接Kafka啥的,批数据像流一样,还挺丝滑。窗口操作也灵活了,滑动窗口、定长窗口你自己选。

MLlibGraphX就比较偏算法场景了。做推荐系统、分类啥的,调个 API 就行,适合拿来打原型。图计算场景下 GraphX 就上场了,像跑个 PageRank 或者搞社交关系都挺顺。

Spark Shell也别忽略,直接写代码试效果,效率不低。开发测试阶段,尤其有用。文档里对这些模块都有详细,还配了不少例子。

压缩包里还有个下载方法.txt,如果你想下别的版本或者查历史内容,能指个方向。另外还有离线版的spark.apache.org,从项目到开发者指南都带了,省得翻官网。

如果你经常出差、搞离线集群、或者想彻底搞懂 Spark 内部结构,这份文档压缩包还是蛮值得一备的。