请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师均值方差标准化有什么直观具体的解释吗?

标准化(Standardization,又可以叫均值方差归一化)和最值归一化(Normalization,又可以叫最大最小归一化)都是Feature Rescaling的方法。他们的目的是一样的:都是将数据的特征放到同一个尺度下

最值归一化感觉很好理解,就是比例缩放,但是均值方差标准化不那么直观 。

我理解是X-X平均值就得到X偏离均值的程度,然后标准差就是整体的偏离程度,然后相除就得到每个值的偏离比例,这样就对偏离成对进行归一化。然后得到无偏的数据,那这样有偏的特征不是被掩盖了吗?

感觉这么理解有些别扭,有没有其他的解释了,概率没学明白。

正在回答

1回答

简单的说,就是:

最值归一化,是把数据放在了同一个尺度,这个尺度是所有数据在[0,1]之间;

均值方差标准化,也是把数据放在了同一个尺度,这个尺度,是所有数据在均值为0方差为1的分布上。


都是把数据放在同一个尺度,但是这个尺度是什么不同。


至于你说的,“有偏性”被掩盖了,非常对!但掩盖的是特征和特征之间的有偏性,对特征和最终我们关注的结果之间的关系,没有影响。


我们在这个课程讲解PCA的时候,你就会看到,PCA算法我们关注的是特征和特征之间的关系,此时就不能把特征做归一化处理,因为归一化的过程将特征之间的差异抹掉了:)


对于这一点,可以结合你问的上一个问题一起理解:http://coding.imooc.com/learn/questiondetail/41819.html

1 回复 有任何疑惑可以回复我~
  • 提问者 神经旷野舞者 #1
    > 但掩盖的是特征和特征之间的有偏性,对特征和最终我们关注的结果之间的关系,没有影响。
    对比PCA好理解多了。
    如果有小规模的例子,有具体的计算能从数字上发现确实归一化对算法学习目标的确没有影响,可能就更好理解了,房价那个可以吗?
    回复 有任何疑惑可以回复我~ 2018-02-04 19:00:04
  • liuyubobobo 回复 提问者 神经旷野舞者 #2
    线性回归是典型的做不做归一化对结果没有影响的算法;kNN是典型的必须做归一化,否则对结果影响很大的算法。其中的原理我在课程中都介绍过,有兴趣也可以自己实验比较一下:)
    回复 有任何疑惑可以回复我~ 2018-02-05 06:46:00
  • 请问老师,该怎么定义有偏或者无偏呢?就是占的比重大吗?有比较严格的定义吗?
    回复 有任何疑惑可以回复我~ 2018-02-06 22:56:12
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信