Spark 2.3.1 的离线文档,挺适合用来查 API、翻模块逻辑的。压缩包里是完整的官方文档,放到本地随时查,尤其网络不稳或者在服务器环境下,贼方便。
RDD是 Spark 最基础的东西,说白了就是可分布存储的只读数据集,操作全靠transformation
和action
。写个 Map 或者 Filter,再用collect()
就能跑出结果。
DataFrame和Dataset也蛮实用,尤其你用 Scala 或者 Java,类型安全、性能优化都做得不错。和Hive
、Parquet
这些打交道时,Spark SQL也派得上用场,能写 SQL 查,还能链式用 API 搞事。
流部分靠Spark Streaming,以前老靠 DStream,现在也能直接对接Kafka
啥的,批数据像流一样,还挺丝滑。窗口操作也灵活了,滑动窗口、定长窗口你自己选。
MLlib和GraphX就比较偏算法场景了。做推荐系统、分类啥的,调个 API 就行,适合拿来打原型。图计算场景下 GraphX 就上场了,像跑个 PageRank 或者搞社交关系都挺顺。
Spark Shell也别忽略,直接写代码试效果,效率不低。开发测试阶段,尤其有用。文档里对这些模块都有详细,还配了不少例子。
压缩包里还有个下载方法.txt
,如果你想下别的版本或者查历史内容,能指个方向。另外还有离线版的spark.apache.org
,从项目到开发者指南都带了,省得翻官网。
如果你经常出差、搞离线集群、或者想彻底搞懂 Spark 内部结构,这份文档压缩包还是蛮值得一备的。