您好波哥,我在学习您的多元线性回归课程章节的时候,损失函数是【y真值-y预测值的差值平方和】,但是y真值是一个一维数组(它相当于是数据集的target列,我打印出来以后看shape是一维的),y预测值是一个列向量也就是一个二维矩阵(因为它是由Xb·θ得到的,Xb和θ都是二维的),y真值和y预测值维度是不同的,所以我的疑问是
① 损失函数用y真值-y预测值,相当于是用一个一维数组减去二维数组,我觉得很奇怪这块没想明白。
② 而且在使用多元线性回归的score函数(R方评测标准)的时候,函数内部对比这两个不同维度的数组为什么不会报错呢?
③ 多元线性回归方程的θ是对应每个特征的系数,这个系数是皮尔逊相关系数吗?另外我看您在课程里搭建的多元线性回归方程,有一些特征前的系数绝对值是较低的(比如绝对值低于0.6),所以可以推理出这种特征和预测结果之间的相关性并不强?那这种相关性不强的特征为什么不直接砍掉呢,我看您依然把这类特征保留在多元线性回归方程中。
④ 如果第三问的θ不是皮尔逊相关系数,我们在训练模型之前,不需要先对每个特征做一下皮尔逊相关系数测试,筛选出比如绝对值大于等于0.6的特征,再带着这些特征训练模型吗?
⑤ 波哥机器学习侧今年出新课吗?
感谢回答!!