老师,您好,实战过程中又遇到两个问题:
问题一:
老师,您好,刚才看了您的回答,如果我的海量数据在HDFS要转化成您课程中的csv格式,我是20个G的数据,用pandas转化的话,一次读进20G的数据,估计内存要爆炸,我还担心转化成您课程中的csv格式20个G数据是不是要花很久很久?
问题二:
我的原始特征libsvm数据是浮点型的,转化成libsvm如果还是浮点型的话,进入模型你报错,我强制把每一列特征都改成int就不报错了,老师,这个强制改int我可以用什么办法避免吗?是不是读取数据的时候哪里默认格式是int了?