请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师,在处理数据过程中,需要对比两组数据的分布情况

老师,在处理数据过程中,需要对比两组数据的分布情况,

但是直接判断两组数据的方式有 相关性算法,但是这种方式在维度过大的时候根本不现实,

现在考虑 现将这些维度降维,降维的方式 是使用 均值,偏态,峰态,四分位数,众数,将原来数组降维,不知道这种方式是否能够比较两个数组的分布情况,效果如何,以及在实际生产中是否能这样使用

正在回答

1回答

同学你好,这个问题我是有些困惑的。如果是两组数据,为什么会涉及到“降维”?你说的降维是指用均值,偏态,峰态,四分位数,众数去指代两个大样本容量的数据的特性,来对比它们的分布情况么?这种情况,可以直接借鉴课程里”假设检验“这一章的内容,比较典型的是独立t分布检验,检验二者分布是不是一致。均值,偏态,峰态,四分位数,众数也可以大致看出数据的分布情况,如果想更好看出数据分布的情况,直接绘图就好,如果数据量大,可以考虑先采样,再绘图。

1 回复 有任何疑惑可以回复我~
  • 提问者 慕运维7479159 #1
    好的,老师,当数据是几百万的甚至更多维度的时候,计算能力不足,只能是将数据降维运算了,一般来说,有强大的计算力是比较困难的,比如:
    一组数据有几万个元素,,如果通过均值 偏态 峰态 等 就减少到很少的字段了,做一下粗略的对比,探索性分析一下分类情况,不知道这种思路是否有问题
    回复 有任何疑惑可以回复我~ 2018-04-08 18:26:47
  • 途索 回复 提问者 慕运维7479159 #2
    只能说,可能是ok的,有多大把握,还是需要假设检验来说明。计算量不会很大的。
    回复 有任何疑惑可以回复我~ 2018-04-09 08:58:04
  • 提问者 慕运维7479159 回复 途索 #3
    好的,我试试假设检验
    回复 有任何疑惑可以回复我~ 2018-04-09 11:05:51
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信