大数据生态的老几位技术,像是Hadoop、Spark、Storm,基本都是你在数据中绕不开的主角。它们搭建起来不难,关键是搞清楚各自的用途和组合方式。像日志用 Spark,实时计算用 Storm,存储分布式文件用 Hadoop,组合起来就是一套蛮实用的大数据方案。
Apache 家的大数据技术,嗯,还挺齐全的,从分布式存储到流式基本都覆盖了。你要是刚上手或者需要快速查阅架构和技术细节,Apache 生态系统:大数据技术实战这篇文章还不错,内容蛮全的。
Hadoop是整个大数据生态的老大哥,分布式文件系统和 MapReduce 是它的基本盘。这篇文章讲得挺细,架构图、场景都有,适合想理清楚模块之间怎么协作的你。
NoSQL那块也别落下,大数据场景里关系型数据库吃不消,像MongoDB、Cassandra这些就派上用场了。可以看看这篇 NoSQL 生态,图文结合,蛮直观的。
想自己搭环境玩?Hadoop 生态离线安装包可以拿来直接用,省去一堆下载配置的烦恼。部署完你就可以跑自己的小集群了。
Spark是现在用得比较多的引擎,内存计算响应快,写法也不复杂。这份资料挺系统,API 用法也提到了,建议收藏。
实时计算的活就交给Storm了,架构类似管道,适合实时日志、监控数据之类的。想自己搞个 demo?可以看看这篇实战文章,一步步搭环境讲得挺清楚的。
如果你想自己练手,不妨从搭个Hadoop 集群开始,这份群集建设文档操作细节不少,照着来基本没啥坑。