这个问题的思考有了进一步的进展,我梳理下,
其实从数学公式的角度来看,设定y'=ΘX,p=1/1+e^t,t=ΘX确实很好的满足了当前数据集的一些性质,可以想象成是为了解决逻辑回归问题才引入的这样几个公式,而这几个公式恰好符合当前二分类数据的性质,特别是要求y'=t做为假设的前提,才使得概率p和y'有了一定的对照关系,因为0<p<1,所以t要满足-∞<t<+∞。反过来也是一样的,因为t满足-∞<t<+∞,所以p满足0<p<1。其实概率p和预测值t之间相互因果的关系,抛开其他不谈,仅从公式就可以发现。就好比是因为a所以求得b,反过来因为b所以求得a,当a和b相互都需要彼此为自己证明的时候,其实是谁也不能为谁证明的,问题将会变的很严重,因此当前ab有因果的前提是先预设了y'=t,y'=t我认为很重要,要问为什么重要,还是因为样本数据的性质决定了很重要,这也是我一开始很郁闷的地方,因为要使y'=t就要使得ΘX满足在从正到负都有值而且还必须有0值,但是一开始假如从线性回归拟合样本集的角度去理解y'=ΘX的时候,我们又对样本数据的性质没有很好的理解的话,怎么保证ΘX在-∞到+∞之间一定都有值,我们通过下降法最终求得的函数y'=ΘX就一定满足同时有正、有负、有0吗?就比如预测波士顿房价的时候函数ΘX可能是没有负值的,如果预测一个样本都是一些差的特征而房屋面积和房间数等重要特征都设定为0时不知道会不会有可能使房价为负的情况,如果没有,那么总有一些别行业的数据集通过样本特征拟合的曲线函数是在x轴上方的,但是这个问题放在二分类的数据集上问题就变的确定了。
上面的图做一下阐述:x轴是鸢尾花样本的一个特征,y轴是鸢尾花样本标签,此时标签结果只有0和1两种分类。这条斜线是4-8之间100个特征点对应的分类结果y',首先,为什么y'不是0或者1,而是所有实数解。这是因为此时求得的函数值y'还没有当做t带入概率p的公式,因为此时的y'=ΘX是通过梯度下降法最小化损失函数J(Θ)求得的,还要特别说明的是:如下图所示,我们需要通过梯度下降法求得p使得损失函数J(Θ)最小,同样可以说是求Θ使得损失函数J(Θ)最小,因为p=1/1+e^t ,我们同样可以说求t,此时t=y,也就是求y使得损失函数J(Θ)最小。
所以我们此时求得的y是-∞到+∞之间的数,而不是0或者1,但是可以通过p=1/1+e^t ,进一步求得p的值。
那么为什么我们求得的y'=ΘX函数一定是斜线,而不是与x轴平行呢,因为如果我们求的y=ΘX与x轴平行的话就终于可以推翻了我们一开始的假设y'=t。因为我们求的是损失函数J(Θ)的极小值,说明此时的拟合效果还是很好的,假如此时y=ΘX与x轴平行,y取常数1,此时p<0.5,也就是说所有的测试样本x_test的值将只有一种分类结果,同样假设y取-5,此时p>0.5,会发现概率p不受样本x_test值的影响,此时的损失函数J(Θ)将不是最小值,变的非常大,所以说y'=ΘX函数一定不与x轴平行,也就是明说了在逻辑回归中ΘX在一定有正值、有负值、有0值。
(其实一开始为什么t=ΘX?是因为假设ΘX有正有负有0 (t=2ΘX或3ΘX应该也是不影响的),但是为什么ΘX有正有负有0?是因为我们假设t=ΘX已经相等了然后根据梯度下降法求得的Θx确实有正有负有0,好吧,有绕进去了。可能唯一不变的大前提还是因为样本数据是二分类问题所以决定了这样做可以)。
所以总结一下,就是样本数据集的性质决定了函数的性质,在茫茫大海中找到的p和t就好比是螺丝和螺帽,刚好可以解决当先的算法问题。