Spark 2.3.1离线文档

Spark 2.3.1 的离线文档，挺适合用来查 API、翻模块逻辑的。压缩包里是完整的官方文档，放到本地随时查，尤其网络不稳或者在服务器环境下，贼方便。

RDD是 Spark 最基础的东西，说白了就是可分布存储的只读数据集，操作全靠transformation和action。写个 Map 或者 Filter，再用collect()就能跑出结果。

DataFrame和Dataset也蛮实用，尤其你用 Scala 或者 Java，类型安全、性能优化都做得不错。和Hive、Parquet这些打交道时，Spark SQL也派得上用场，能写 SQL 查，还能链式用 API 搞事。

流部分靠Spark Streaming，以前老靠 DStream，现在也能直接对接Kafka啥的，批数据像流一样，还挺丝滑。窗口操作也灵活了，滑动窗口、定长窗口你自己选。

MLlib和GraphX就比较偏算法场景了。做推荐系统、分类啥的，调个 API 就行，适合拿来打原型。图计算场景下 GraphX 就上场了，像跑个 PageRank 或者搞社交关系都挺顺。

Spark Shell也别忽略，直接写代码试效果，效率不低。开发测试阶段，尤其有用。文档里对这些模块都有详细，还配了不少例子。

压缩包里还有个下载方法.txt，如果你想下别的版本或者查历史内容，能指个方向。另外还有离线版的spark.apache.org，从项目到开发者指南都带了，省得翻官网。