一个样本属于哪个类别的概率,和样本总量没有关系。是你将某个类别的样本当做X类,其他类别的所有样本当做Y类,然后训练一个分类器,这个分类器预测出的这个样本属于X的概率和属于Y的概率谁高。
比如,有100个样本,25个属于A,25个属于B,25个属于C,25个属于D。
使用OVR解决这个四分类问题,你需要训练4个模型。
第一个模型,将25个属于A的样本分为一类;其他75个不属于A的样本分为一类。进行训练。
这个模型,可以判断出一个样本属于A的概率是多少(或者说不属于A的概率是多少)。
第二个模型,将25个属于B的样本分为一类;其他75个不属于B的样本分为一类。进行训练。
这个模型,可以判断出一个样本属于B的概率是多少(或者说不属于B的概率是多少)。
第三个模型,将25个属于C的样本分为一类;其他75个不属于C的样本分为一类。进行训练。
这个模型,可以判断出一个样本属于C的概率是多少(或者说不属于C的概率是多少)。
第四个模型,将25个属于D的样本分为一类;其他75个不属于D的样本分为一类。进行训练。
这个模型,可以判断出一个样本属于D的概率是多少(或者说不属于D的概率是多少)。
现在,来了一个新样本。这个新样本就可以分别进入四个模型,得到这个样本属于A,B,C,D的概率。取高者。
加油:)