shc 的自定义编译包shc-core-spark-2.3.0-hbase-2.1.0.jar
,挺适合在CDH 6.2.0
上折腾PySpark 2.4.0
和HBase 2.1.0
的朋友。直接拿来就能读写 HBase,免去了你自己编 JAR 包的麻烦,还是挺省事的。
用的是Hortonworks SHC
的源码,兼容性不错,跑在 CDH 环境下也挺稳,尤其你要跟 HBase 做深度集成的场景,挺好使的。比如你想用 DataFrame
的方式查 HBase 表,直接搞定,写入也方便。
有一点要注意哈,Spark 版本别弄错了,这个包是配 Spark 2.3.x
的,虽然你跑 PySpark 2.4.0
也能用,但要留个心。环境装得不对,坑还挺多的。
如果你还在折腾 CDH 的部署,可以看看这篇CentOS 7.6 自动化部署 CDH 6.2.0 详解;想深入 HBase + PySpark 实战的,也推荐Spark 与 PySpark 读写 HBase 数据实战,配套挺全的。
建议你编译这个包的时候记得用对应版本的依赖,不然编译是过了,跑起来报错。嫌麻烦?直接用这份现成的 JAR 就挺香。
如果你用的是 CDH6.2 + PySpark + HBase 的组合,下载这个包就对了,省时省力,稳定性也还不错。