请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

请教字段间的相关性衡量问题。

我看了老师这集线性相关的课程后就想您所说的线性相关是指空间中的坐标轴的相关性。但实际工作中一堆数据所在空间的维度是多少是不确定的,我不知道是否有些字段可以用其它字段来表述,最开始只能通过定性分析。然后可以用相关系数衡量不同变量间的相关性,但数据表虽然也是矩阵但不是坐标系,而是存在于坐标系中的信息点。那可否通过线性回归得到的系数是否存在线性组合来判断数据表是否字段共线性?还是说线性回归得到的回归系数已经体会了去除多余字段呢?这节课的内容与降维(PCA之类)是否有什么关系?

不好意思,问题比较多,谢谢老师。

正在回答 回答被采纳积分+3

1回答

liuyubobobo 2018-12-13 09:08:46

这一小节的内容既和线性回归相差甚远,也和PCA相差甚远。当然,这一小节的内容都是这两个算法的基础的基础的基础。事实上,对于这两个算法,在这个课程后续合适的时候,我都会提及的:)(不过由于课程定位原因,不会做详细介绍,但我正在思考是否做一些补充内容,补充在这个课程或者我的机器学习课程中,待定。)


首先,一堆数据所在的维度是确定的。这组数据有多少特征,我们就在几维空间中做处理。不确定的是子空间(课程后续会讲)。但即使如此,对于一般的数据,通常不会那么巧,明明是n维数据,大家却都落在一个n-1为的空间中,现实生活中的实际数据,这个概率近乎为零。


PCA做的事情不是去除“没有信息的轴”(因为通常没有这样的轴),而是在基变换后(后续会讲)去除“信息量低的轴”。这二者有本质区别。前者太简单了,求一个列空间就好(后续会讲),而后者则复杂很多。当然,如果你的数据真的那么“奇怪”,存在绝对的冗余信息,那么他的信息量显然是低的,在PCA的过程中也能被正确的去除。


同样,线性回归也无法去除多余字段,线性回归做的是拟合。线性回归的系数,是y与每一个特征的相关性;而线性相关和线性无关,是x内部的性质,线性回归无法表达。(监督学习都无法表达,监督学习表达的是X和y的关系,非监督学习才表达X内部的关系。比如PCA就是一种非监督学习。)


另外一个理解线性回归的方式,是投影(课程中会提及)。


继续往后学习,详细你会理解的更深刻的:)


加油!:)


0 回复 有任何疑惑可以回复我~
  • 提问者 Jazz_Qi #1
    非常感谢老师的回复。期待你开设将数学、统计与数据分析、机器学习等的课程。因为市面上很多课程都呈现大而全,从零开始的课程又编程又数据分析,根本不会深入。但我这种数学放下了很久的人在学习数据方面知识时就发现数学不行。
    小时候学习数学找不到学习的原因,只求及格。而现在对数据分析有兴趣了之后深觉得数学学得不够好,一直希望有数学与数据、机器学习深度结合的课程。期待老师的其他课程,能够用一整套课程来说明一方面知识一直是我觉得慕课网好的地方。
    回复 有任何疑惑可以回复我~ 2018-12-13 09:22:20
  • liuyubobobo 回复 提问者 Jazz_Qi #2
    谢谢你的支持,继续加油!:)
    回复 有任何疑惑可以回复我~ 2018-12-13 09:54:01
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号