Hadoop 的相关项目都挺有意思,涉及到的技术也实用。Avro作为一个数据序列化系统,主要用于结构化数据,它支持多种数据类型,使用二进制格式节省了不少传输和存储空间。而且,Parquet作为列式存储格式,能够提升查询性能,压缩率也比较高,多大数据框架都可以直接用,挺适合大规模数据存储。Flume,则是专门用来收集、聚合和转移日志数据的,能有效日志数据的管理问题,扩展性还蛮强的。Sqoop则是用来迁移数据的,可以在 Hadoop 和关系型数据库之间做批量数据迁移,方便。,Pig这个数据平台,结合了Pig Latin语言,你轻松大数据任务,它还挺适合那些复杂的数据流作业,编写起来也不复杂。