懒人数据库的Dataset模块,最大亮点就是“像操作 JSON 一样”搞定数据库操作,真的挺顺手的。你不用去写一堆CREATE TABLE
语句,直接插数据它就自己建表,省事不少。
支持隐式建表、批量加载、事务,这些功能在小型项目或者脚本自动化里实用。比如你要每天爬点数据存数据库,用dataset
搭配requests
一通写下来,干净利落。
安装也简单,就一条命令:
pip install dataset
。不过要注意,从 1.0 开始,数据导出功能分离到了datafreeze
里了,要导出数据就顺带装一下。如果你之前搞过SQLAlchemy
,那你用起来会觉得更轻松。它底层其实就是封装了SQLAlchemy
,但接口更简洁,像db['users'].insert({...})
这种,直接上手。
你要是还在纠结数据导入导出的方式,可以顺带看看这几篇文章:Spark-SQL 加载优化、数据库批量加载探析、还有Greenplum 实战案例,都是干货。
如果你平时写 Python 脚本多,又不想折腾 ORM,那dataset这个工具真的挺值得加进你的工具箱的。