大数据的入门资源还挺多的,但如果你想从头开始摸清楚个,《大数据入门认识大数据 1》这套资料还挺合适的。内容不长,节奏也不快,适合一边看一边查资料,不至于压得你喘不过气来。
你会碰到不少大数据圈子常见的技术名词,比如Hadoop、数据、日志这类的,别慌,文档里都带了例子,基本能对上号。用的时候可以多对照下你自己的业务场景,比如是不是也有日志文件堆成山?
顺手推荐几个相关资源,都是实战向的——Hadoop 大数据与挖掘实战挺适合想撸代码的;大数据与挖掘内容偏基础,适合入门看看;日志文件那个讲得也比较细,日志多的项目别错过。
还可以看看企业级的那本——理解大数据 企业级 Hadoop 和流数据,讲得比较全面,嗯,偏架构思路多一点。
建议你边看边动手,比如搭个 Hadoop 环境,试着丢几份 CSV 或日志进去跑个 MapReduce。哦对了,hdfs dfs -put
这个命令要熟悉,用得挺频繁的。
如果你刚入门,推荐从上面的几篇文章看起,挑一两个试着跑下数据流流程,慢慢就清楚整个大数据链是怎么回事了。