采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,在处理数据过程中,需要对比两组数据的分布情况,
但是直接判断两组数据的方式有 相关性算法,但是这种方式在维度过大的时候根本不现实,
现在考虑 现将这些维度降维,降维的方式 是使用 均值,偏态,峰态,四分位数,众数,将原来数组降维,不知道这种方式是否能够比较两个数组的分布情况,效果如何,以及在实际生产中是否能这样使用
同学你好,这个问题我是有些困惑的。如果是两组数据,为什么会涉及到“降维”?你说的降维是指用均值,偏态,峰态,四分位数,众数去指代两个大样本容量的数据的特性,来对比它们的分布情况么?这种情况,可以直接借鉴课程里”假设检验“这一章的内容,比较典型的是独立t分布检验,检验二者分布是不是一致。均值,偏态,峰态,四分位数,众数也可以大致看出数据的分布情况,如果想更好看出数据分布的情况,直接绘图就好,如果数据量大,可以考虑先采样,再绘图。
好的,老师,当数据是几百万的甚至更多维度的时候,计算能力不足,只能是将数据降维运算了,一般来说,有强大的计算力是比较困难的,比如: 一组数据有几万个元素,,如果通过均值 偏态 峰态 等 就减少到很少的字段了,做一下粗略的对比,探索性分析一下分类情况,不知道这种思路是否有问题
只能说,可能是ok的,有多大把握,还是需要假设检验来说明。计算量不会很大的。
好的,我试试假设检验
登录后可查看更多问答,登录/注册
快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!
1.2k 18
1.0k 13
911 10
860 10
1.1k 9