大数据的与应用案例讲得还挺细的,尤其是对Hadoop生态的拆解,蛮适合刚入门或者想系统捋一遍的前端朋友看一看。嗯,它不是讲怎么撸代码,但对你理解大数据架构、后端接口、数据流转逻辑挺有。
Hadoop 的HDFS是怎么存储 TB 级数据的,MapReduce
怎么拆解计算任务都说得明明白白,还顺带提了下YARN、Hive这类常见工具,干货不少。
另外,国内外的技术发展也顺手提了一嘴,虽然不是重点,但能帮你大致知道业界都怎么玩,算是长点见识。
如果你最近在搞可视化平台、BI界面、或者和后端协作搭数据功能,推荐花半小时扫一遍这篇。需要动手的朋友也可以顺着下面这些链接看一看,像《构建大数据 hadoop 分布式集群》《Hadoop 伪分布式部署指南》这种,跟着做一遍理解更深。
对了,数据挖掘和分布式计算相关的内容也有补充,像 PDMiner、Greenplum 这些也提了一下,有兴趣可以继续挖掘下去。
如果你是偏前端的,但又总和数据打交道,那这篇算是个不错的“背景知识扫盲包”。不看代码也能学到不少东西。