请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

正在回答 回答被采纳积分+3

3回答

提问者 Unden 2018-08-11 17:57:31

问题已解决!

首先参考了https://coding.imooc.com/learn/questiondetail/69693.html

然后在服务器上执行

spark-submit \

--class com.spark.ETLStepTwoLocal \

--master local[*] \

--jars /opt/hive-1.1.0-cdh5.7.0/lib/mysql-connector-java-5.1.27-bin.jar,/opt/lib/ipdatabase-1.0.jar,/opt/lib/poi-3.14.jar,/opt/lib/poi-ooxml-schemas-3.14.jar,/opt/lib/poi-ooxml-3.14.jar,/opt/lib/xmlbeans-2.6.0.jar \

--conf spark.sql.warehouse.dir=hdfs://hadoop:9000/user/hive/warehouse \

/opt/lib/spark-sql-1.0.jar \

file:///root/data/access.log \

file:///root/data/step2_parquet \

file:///root/data/step2_json

其中关联的jar包中,xmlbeans-2.6.0.jar是单独下载的

下载地址:http://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans/2.6.0

1 回复 有任何疑惑可以回复我~
Michael_PK 2018-08-11 12:00:41

parquet文件不能直接查看的吧?

0 回复 有任何疑惑可以回复我~
  • 提问者 Unden #1
    为了验证是不是输出就乱码了,我输出了两个文件,一个parquet,一个json,看的是json文件,里面的城市乱码了,然后查看了json文件的编码集,是utf8,是不是spark sql写出的编码不是utf8?
    回复 有任何疑惑可以回复我~ 2018-08-11 12:02:47
  • Michael_PK 回复 提问者 Unden #2
    应该默认是u8的,机器是否有字符集设置,查下
    回复 有任何疑惑可以回复我~ 2018-08-11 12:10:16
Michael_PK 2018-08-11 11:48:33

编辑器的原因不?你直接到Linux上执行下看看结果

0 回复 有任何疑惑可以回复我~
  • 提问者 Unden #1
    数据清洗阶段,Windows环境下直接调用show方法,中文显示正常,但是代码打包放到linux虚拟机下执行,输出的json文件城市就乱码了
    回复 有任何疑惑可以回复我~ 2018-08-11 11:50:29
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信