请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

wide_deep实战问题系列2

老师,您好,实战过程中又遇到两个问题:
问题一:
老师,您好,刚才看了您的回答,如果我的海量数据在HDFS要转化成您课程中的csv格式,我是20个G的数据,用pandas转化的话,一次读进20G的数据,估计内存要爆炸,我还担心转化成您课程中的csv格式20个G数据是不是要花很久很久?
问题二:
我的原始特征libsvm数据是浮点型的,转化成libsvm如果还是浮点型的话,进入模型你报错,我强制把每一列特征都改成int就不报错了,老师,这个强制改int我可以用什么办法避免吗?是不是读取数据的时候哪里默认格式是int了?

正在回答

1回答

  1. 你的数据在hdfs上你写一个mr,就是map reduce,并行处理转化 很快的20G。

  2. 你如果是按我的程度demo,那里读入的时候有_CSV_COLUMN_DEFAULTS, 你把float的地方 弄成0.0试一下。


0 回复 有任何疑惑可以回复我~
  • 提问者 慕哥0458965 #1
    谢谢老师,我试一下~
    回复 有任何疑惑可以回复我~ 2019-01-27 20:25:03
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号