这个公式和矩阵求导无关。
1)y_hat 就是 Xb * theta
2) y 是一个 向量,y_hat 也是一个向量,y - y_hat 的结果还是一个向量,其中的每一项是 y(i) - y_hat(i)
3)两个向量的点乘,就是对应项相乘再相加。所以 y - y_hat 点乘 y - y_hat,结果就是 y - y_hat 向量中的每一项相乘再相加。每一项就是 y(i) - y_hat(i),所以 y - y_hat 点乘 y - y_hat的结果就是上面的 sigma 的式子
4)在这里写成了矩阵形式。即把 y - y_hat 想成是 m * 1 的向量,那么 y - y_hat 的转置就是 1 * m 的向量。用 (y - y_hat).T 和 y - y_hat 相乘,结果是 1 * 1 的矩阵,也就是一个数字,其结果也是 y - y_hat 向量中的每一项相乘再相加。(即向量的点乘可以从矩阵的角度去理解。)
5)如果还想不明白,我的建议是,带入一个小的数据,用具体的数据,再理解一下。
看一下上面的解释是否还有哪里不明白?
继续加油!:)