懒人数据库的Dataset模块,最大亮点就是“像操作 JSON 一样”搞定数据库操作,真的挺顺手的。你不用去写一堆CREATE TABLE语句,直接插数据它就自己建表,省事不少。

支持隐式建表批量加载事务,这些功能在小型项目或者脚本自动化里实用。比如你要每天爬点数据存数据库,用dataset搭配requests一通写下来,干净利落。

安装也简单,就一条命令:

pip install dataset
。不过要注意,从 1.0 开始,数据导出功能分离到了datafreeze里了,要导出数据就顺带装一下。

如果你之前搞过SQLAlchemy,那你用起来会觉得更轻松。它底层其实就是封装了SQLAlchemy,但接口更简洁,像db['users'].insert({...})这种,直接上手。

你要是还在纠结数据导入导出的方式,可以顺带看看这几篇文章:Spark-SQL 加载优化数据库批量加载探析、还有Greenplum 实战案例,都是干货。

如果你平时写 Python 脚本多,又不想折腾 ORM,那dataset这个工具真的挺值得加进你的工具箱的。