Hadoop大数据网页清洗与分词

大数据技术里的网页数据清洗和分词这套资源，算是我用过比较顺手的一套。

运行jar包的时候如果遇到ansj类找不到的报错，嗯，记得把ansj和nlp的包手动扔到Hadoop节点上，再执行的时候加上路径就行。挺常见的小坑，避开就舒服多了。

还有啊，程序跑多次的时候别忘了清理之前生成的结果文件，不然会提示文件已存在，搞得还以为程序错了，其实就是没删干净。多注意点，开发体验会好多。

ClassNotFound也是老熟人了，常见原因无非就是类名写错或者包名不全。建议你运行前确认下路径，别想，命令里该写的都写清楚，省得报错。

Linux 环境下中文乱码？别担心，用PuTTY连一下就好了，支持中文显示。之前我也踩过坑，换工具一秒，简直解气。

对了，下面这些资源也蛮不错的，像是Spark、MapReduce、OpenRefine啥的，都有实用的清洗框架和源码示例，适合根据项目需求搭配使用，挺方便的。