大数据技术里的网页数据清洗和分词这套资源,算是我用过比较顺手的一套。
运行jar
包的时候如果遇到ansj
类找不到的报错,嗯,记得把ansj
和nlp
的包手动扔到Hadoop
节点上,再执行的时候加上路径就行。挺常见的小坑,避开就舒服多了。
还有啊,程序跑多次的时候别忘了清理之前生成的结果文件,不然会提示文件已存在,搞得还以为程序错了,其实就是没删干净。多注意点,开发体验会好多。
ClassNotFound
也是老熟人了,常见原因无非就是类名写错或者包名不全。建议你运行前确认下路径,别想,命令里该写的都写清楚,省得报错。
Linux 环境下中文乱码?别担心,用PuTTY
连一下就好了,支持中文显示。之前我也踩过坑,换工具一秒,简直解气。
对了,下面这些资源也蛮不错的,像是Spark
、MapReduce
、OpenRefine
啥的,都有实用的清洗框架和源码示例,适合根据项目需求搭配使用,挺方便的。