数据工程师的日常其实挺杂的,要的东西也不少。所以找到一套靠谱的学习资源,真的是省心不少。dataengineer-nd这套资料就挺全面的,覆盖了从数据建模到数据管道,再到数据库选型和工具,内容干货十足。

Airflow的工作流调度做得蛮顺手的,像写脚本那样就能把 ETL 跑起来,声明式配置一改,任务立马自动跑起来,挺省事。你要是常常跑定时任务,这玩意儿别错过。

接下来是Spark,批、流都能搞,性能也够猛。比如网站访问日志、实时统计用户活跃,这些场景下它挺能扛。

Cassandra和其他NoSQL数据库也讲得比较清楚。像 Cassandra,适合做那种写入频繁、节点分布广的系统,比如 IoT 设备数据的实时写入。如果你想快速上手,还有不少案例可以参考。

PostgreSQL也没落下。虽然是传统关系型数据库,但做查询的时候真不输 Redshift。是你想自己搭数据仓库练练手,用它合适。

说到数据仓库,Amazon Redshift优化得不错,列存加并行计算,PB 级别的数据也能得挺快。企业级场景,选它没错。

别忘了Jupyter Notebook。数据过程中边写代码边看结果,还能直接出图、做文档,效率高。尤其用 Python 写点小脚本、连数据库测试查询,体验还不错。

dataengineer-nd这套内容挺全,入门进阶都能用。你要是正打算系统学习数据工程,不妨试试看。如果你对某块技术感兴趣,文末还有些延伸阅读的链接可以参考。