案例驱动的 Spark 教程,挺适合你想深入搞数据挖掘的时候翻一翻的。《Advanced Analytics with Spark 第二版》里的例子都比较贴地气,像是推荐系统、异常检测这种,拿来就能跑。
源码全公开,结构清晰,改起来也方便。你可以直接上 Spark 高级数据源码 看看,里面的数据集和脚本都帮你准备好了,响应也快。
Spark的RDD
和DataFrame
切换逻辑,在书里讲得挺透的。比如用filter
用户行为数据,或者通过groupBy
做简单聚合,流程都清楚,适合新手跟着练。
如果你想知道实际数据问题怎么影响结果,推荐顺手读下 数据挖掘案例:缺失天气属性的影响,和主书内容衔接挺紧的,有点意思。
顺便一提,官方 PDF 资源也在这边 Spark 高级 第二版,如果你喜欢边看边记,不妨下下来留着做参考。
如果你已经用过 Spark 做基本的批了,可以借这本书尝试点进阶玩法,比如用户行为建模、推荐排序逻辑优化啥的。嗯,练练手也挺好。