解析清洗后的parquet文件，城市信息乱码，其他字段没问题-慕课网

提问者 Unden 2018-08-11 17:57:31

问题已解决！

首先参考了https://coding.imooc.com/learn/questiondetail/69693.html

然后在服务器上执行

spark-submit \

--class com.spark.ETLStepTwoLocal \

--master local[*] \

--jars /opt/hive-1.1.0-cdh5.7.0/lib/mysql-connector-java-5.1.27-bin.jar,/opt/lib/ipdatabase-1.0.jar,/opt/lib/poi-3.14.jar,/opt/lib/poi-ooxml-schemas-3.14.jar,/opt/lib/poi-ooxml-3.14.jar,/opt/lib/xmlbeans-2.6.0.jar \

--conf spark.sql.warehouse.dir=hdfs://hadoop:9000/user/hive/warehouse \

/opt/lib/spark-sql-1.0.jar \

file:///root/data/access.log \

file:///root/data/step2_parquet \

file:///root/data/step2_json

其中关联的jar包中，xmlbeans-2.6.0.jar是单独下载的

下载地址：http://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans/2.6.0

1 回复有任何疑惑可以回复我~

收起回答

Michael_PK 2018-08-11 12:00:41

parquet文件不能直接查看的吧？

0 回复有任何疑惑可以回复我~

收起回答

提问者 Unden #1

为了验证是不是输出就乱码了，我输出了两个文件，一个parquet，一个json，看的是json文件，里面的城市乱码了，然后查看了json文件的编码集，是utf8，是不是spark sql写出的编码不是utf8？

回复有任何疑惑可以回复我~ 2018-08-11 12:02:47

Michael_PK 回复提问者 Unden #2
```
应该默认是u8的，机器是否有字符集设置，查下
```
回复有任何疑惑可以回复我~ 2018-08-11 12:10:16

Michael_PK 2018-08-11 11:48:33

编辑器的原因不？你直接到Linux上执行下看看结果

0 回复有任何疑惑可以回复我~

收起回答

提问者 Unden #1

数据清洗阶段，Windows环境下直接调用show方法，中文显示正常，但是代码打包放到linux虚拟机下执行，输出的json文件城市就乱码了

回复有任何疑惑可以回复我~ 2018-08-11 11:50:29

解析清洗后的parquet文件，城市信息乱码，其他字段没问题

正在回答回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

datanode 启动失败

Spark编译很不顺利

meaven依赖包下载的慢的看看这个

spark 编译失败

spark无法开始编译，我的错误总是那么新颖

热搜

最近搜索清空

解析清洗后的parquet文件，城市信息乱码，其他字段没问题

正在回答 回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

datanode 启动失败

Spark编译很不顺利

meaven依赖包下载的慢的看看这个

spark 编译失败

spark无法开始编译，我的错误总是那么新颖

正在回答回答被采纳积分+3