零基础入门大数据的 Hadoop 视频教程套餐还挺香的。讲得比较细,从
Hadoop 的分布式存储搞清楚之后,理解它怎么横向扩展也挺容易的。举个例子,大文件不是一股脑存到一台机器,而是分块后到多台上去,HDFS干的活就是这个。安全、容错,数据出问题还能自己修复。
再说说MapReduce,思路简单——先拆后合。像你网站日志,一堆文件先 Map 成键值对,Reduce 阶段再归总。写法也不复杂,核心在逻辑拆分。熟练了之后写个日志脚本也就十几分钟的事。
YARN是资源调度的管家。它主要管资源谁用、用多少,搞并发执行的时候还挺好用的。它让 Hadoop 不只是能跑 MapReduce,还能跑 Spark、Flink。嗯,灵活多了,也更适合现在的混合任务调度。
HBase就比较适合做大规模非结构化数据的实时访问。比如你想做个微信聊天记录平台,读写频繁,用它挺合适。结构上是列式存储,查大字段也快,响应也快。
Greenplum对想做 SQL 的朋友还蛮友好的。它底子是 PostgreSQL,但分布式做得还不错,数据多的时候,能并行查询,海量数据也不卡。数据那块你多半用得上。
系统监控别忘了看Chukwa。它是个日志收集工具,可以帮你把集群里的运行数据都采集起来,再用 Hadoop 一下,哪些节点慢、资源耗在哪儿一目了然。
建议你视频配着项目例子一起练,像Hadoop 集群搭建、HBase 部署这种,光看没用,动手才长记性。如果你准备跳槽搞大数据方向,这一套学完差不多能应付初级岗了。