Hadoop 的分布式文件系统 HDFS,挺适合做大数据存储的。它的高容错加高吞吐,放在低成本机器上也能稳稳跑起来,适合你超大数据集的时候用。嗯,访问方式是流式的,对那些做日志、ETL 任务的开发来说,蛮方便的。HDFSMapReduce这对组合,一个负责存,一个负责算,配合得还挺默契。
你要搭个小型集群玩玩也行,搞大点的生产环境也没问题,资源也多,社区也活跃。如果你常用JAVA,这个框架也算比较友好,多接口都能接得上。
另外,相关的内容我整理了几个链接,像 HDFS 系统、Hadoop 搭建啥的,你可以看看,挺有的。