分布式的大杀器就是 Spark 的 Spark。Fast Data Processing with Spark这本书讲得挺全,从搭集群到写分布式代码、从 Shell 交互调试到部署上线,全流程都覆盖了。嗯,而且 Java、Scala、Python 都支持,代码风格也挺清爽的,适合各种开发习惯的你。
内存计算的效率让人惊喜,不像 Hadoop 那种中间写磁盘,Spark 跑得快是真的快。比如你在一个上百 G 的数据集,用Spark RDD
直接搞定统计、筛选,响应也快,代码也简单。
交互式开发挺方便的,书里有专门Spark Shell
怎么用,你可以边写边试,像写脚本一样快速验证逻辑。还有Spark Streaming
做实时,也讲得比较清楚。
对了,如果你想用 SQL 风格的语法查询数据,书里也提到了Hive + Shark这种组合,还能图数据,用的是GraphX
(老版本叫Bagel
)。不管你是在本地玩还是部署到 EC2,书里都有实操教程,照着配就行。
如果你正在玩大数据、想试试更轻量灵活的分布式计算方式,Spark 是个不错的起点。这本书就是那种看完能立马动手干的类型,推荐你试试。