在学习了此节信息熵的公式后,觉得很眼熟。
果然在逻辑回归中,损失函数有着同样的形式:cost = -ylogp - (1-y)log(1-p)
虽然这里的 p!=y,p为预测的概率,y为真值的标签,但请问这个公式是否与这节所学习的信息熵有关?
举一个例子,在一个二分类问题里,我们有两个样本,对应两个不同的类别标为0和1,让y=1,则1-y=0,那么假设现在标签1对应的p=1,那么此时整个cost=0。根据信息熵的规则,信息熵越低,数据越稳定,因为此时概率为1,所以数据稳定。由此我们是否可以断定这个损失函数就是信息熵的定义呢?
谢谢老师!