摩根大通的大数据应用案例还挺值得一看,尤其是它怎么用Hadoop海量非结构化数据这块,挺有参考价值的。
150PB 的在线存储量、3 万多个数据库、还有 35 亿用户登录记录,这体量放哪儿都不小。它们就靠Hadoop把这些数据打通,从日志、交易到社交数据,全都能存下来,还能用起来,灵活性高。
Web 日志、社交数据这类东西,原本结构就杂,Hadoop 的分布式存储就派上用场了。数据统一汇总到一个平台,后续要跑数据或搞个性化推荐也省事不少。
像诈骗检测、IT 风险控制、自助查询这些业务,靠传统数据库真挺吃力的,Hadoop 支持批和实时,起来快多了,响应也快。
你要是最近在研究数据平台选型,这份案例蛮有启发性的。相关资源我也给你整理了一些:
如果你也在搭建数据平台,或者想搞清楚大公司是怎么运用 Hadoop 的,这篇文章可以先看看,挺实在的。