请问一下如果我不使用sklearn提供的数据集,我想使用自己收集的数据来进行模型的训练,需要对数据进行什么特殊处理吗?
例如在冲压件的制造中,我以零件圆角和竖边高度作为样本特征,以零件是否开裂作为标签,利用KNN算法训练模型,最后来一个新的零件只要输入圆角和竖边高度就能判断零件是否开裂。
假设我收集100组零件的圆角和竖边高度以及相应标签(是否开裂),对这100组数据我需要进行什么特殊处理吗?还是只要收集的过程较为严谨这100组数据就可以直接使用?如果需要处理数据应该去了解哪本书或者哪个学科的哪门课程?