在用 PySpark 实时数据流时,连接 Kafka 几乎是必不可少的。你需要的这个spark-streaming-kafka-0-8-assembly_2.11-2.4.3.jar,就是用来实现这个功能的 JAR 包。只要将它放到 Python 所在的 site-package 目录下,并确保它被添加到 Pyspark 的 jars 目录里,你就可以轻松地在 PySpark 中读取 Kafka 的消息了。连接简单,性能也还不错,是多项目中不可或缺的部分。如果你在搞流式数据,这就是你需要的工具包!