手机流量的日常,用Hadoop来搞,效率还挺高的。项目数据结构清晰,适合练手,也适合做大数据实战入门。尤其是你手上有一批 CDR 数据,正愁怎么?直接套这个模型,跑得飞快。

数据都是偏通信场景的,字段包括主叫号码被叫号码通话时间这些。用MapReduce批量统计通话次数、流量占比,结果还挺有意思。想深入的话,可以加点HivePig试试,扩展性蛮强的。

哦对了,文档比较简洁,不过不影响你理解,照着跑一遍基本都能搞明白。如果你以前折腾过HDFSPython的数据脚本,这个项目上手毫无压力。响应也快,代码也简单。

你还可以顺手看看这些相关资源:比如Hadoop 豆瓣影评数据,或者Pig:Hadoop 数据利器,都挺实用。

如果你刚开始接触大数据,或者正好在通信数据,这套代码真的可以试试。不光能练技术,还能学点思路。