PySpark 的 Python 接口用起来还蛮顺手的,尤其是你已经熟悉了 Python 那一套写法后,用它来操作大数据就没那么吓人了。用DataFrame
数据,感觉就像在写 Pandas,但又多了分布式的能力,扩展性强了不少。
数据量一大,用pandas
直接就吃不消,这时候上PySpark
就对了。它跑在Spark
引擎上,响应也快,代码也挺简洁的,像filter
、groupBy
这种操作几乎一摸一样。
如果你刚上手,不妨看看《Spark 理论与 PySpark 应用》这篇,讲得还比较透;另外函数调用技巧那篇也挺实用的,多常见坑都提前踩了。
开发环境方面,Windows10 搭建教程也有现成的方案,省了不少试错时间。哦对了,Kafka
那种实时流数据你也能配上 PySpark 一起搞,连接器教程值得一看。
如果你是 Python 开发,又刚好在做数据,不试试PySpark
挺可惜的。