大数据系统的框架划分挺清晰,数据的生成、获取、存储、四个模块一目了然。你要是刚接触这块内容,读这篇综述真的省事,算是把概念理得挺明白。

光学观测用户行为数据的例子挺有代表性,数据不是一条一条地来,而是像瀑布一样哗啦啦地灌过来。怎么接住这波洪水,靠的就是这些系统的架构设计。

实时是个关键词,是你做金融或者安全监控类的项目,数据一滞后,就出事了。系统怎么扛得住?怎么又快又稳?文里讲得还蛮细的。

要了解行业怎么干的,建议顺手看看文末的几个链接,京东金融的大数据平台挺有参考价值的,思路、模块、实现细节都比较落地。

如果你想试试开源方案,Rhadoop这篇文章也可以看看,用 R 语言 Hadoop 上的数据,思路蛮灵活的。

不过要注意,大数据平台不是搭完就完事儿了,数据治理系统扩展性这些问题也不能忽略。选框架的时候,别光看跑得快,还得看维护起来是不是费劲。

如果你最近正好在设计数据系统,或者在摸索怎么选技术栈,那这篇文章真的挺值一读的,省你不少踩坑的时间。