© 1999-2048 dssz.net 粤ICP备11031372号
[spark] 大数据处理技术网页数据清洗及分词
说明: 1. 在jar包执行时,会出现ansj中的类找不到的错误,解决方法是将ansj和nlp两个包上传到hadoop节点上,然后运行程序的执行命令时加上jar包就可以了。 2. 重复运行程序的时候因为之前生成结果文件但是没有删掉,运行程序的时候出现文件已存在所以无法建立新的文件。 3. 运行时会存在classNotFound的错误,因为包名和类名错误,所以运行时的命令要把包名类名等都写对。 4. Linux上查看结果文件的时候中文是乱码,用PuTTY连接linux即可解决<super2red> 上传 | 大小:2kb