如果我们训练好一个模型,拿来投入生产了,这时候如果来了一个新的数据,那要怎么做和训练测试集相同程度的预处理呢?
例如训练集测试集做了归一化正则化,然后对分类变量做了onehot编码生成了多个虚拟变量。加入我们数据集变量a有10个特征,onehot以后生成了10个虚拟变量,那么模型也是在这10个虚拟变量上训练出来的。而如果我们来了一条新的数据要做预测,理论上说应该也是要做归一化正则化,然后用onehot做处理,正则化归一化的话应该是因为有estimater,可以直接代公式算,那onehot要怎么做呢,一条数据的变量只会有一个固定的类别值啊。
我网上找的一个文章(https://blog.csdn.net/maotianyi941005/article/details/88582464
)说是可以先把这个新数据合并到训练集上做预处理然后再拿出来做predict,或者查看每个分类变量的onehot之后的虚拟变量,手动添加进去。但是总感觉这种方法效率很低啊,有没有什么快捷的办法,或者说实际工程中是怎么把预测数据做到和模型的训练测试集一样的预处理呢?