请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

请问等分箱后,每个箱子里面的数值是不一样的吗

请问等分箱后,每个箱子里面的数值是不一样的吗,

取边界值是否会导致同一个箱子内,有两个数值,

用平均值就不存在这个问题,15,15,24 好像没有离散化吧,请问老师怎么理解这个问题

正在回答

1回答

途索 2018-03-09 12:12:39

同学你好,分箱使用的一个重要场景,就是离散化。离散化的目的,是让数字出现的“种类”减少(比如1,2,3,4,4共有五个数,四个“种类”数)。每个数字在离散化时都会被转化成另一个数字,分箱是一种具体手段,分箱并不要求转化过程后的箱子里的数一致。典型的,如果箱子里的数的跨服太大,比如,1,2,3,4,100,101,等深分两个箱,第二个箱为4,100,101,如果取平均数,把这三个数都转成他们的平均数,对这三个数来说,会失掉许多原始信息。这种情况下,边界值指代,就更合适,保留信息,同时平滑数据。

0 回复 有任何疑惑可以回复我~
  • 途索 #1
    更正错别字 跨度
    回复 有任何疑惑可以回复我~ 2018-03-09 12:13:19
  • 提问者 慕运维7479159 #2
    非常感谢老师耐心回答
    回复 有任何疑惑可以回复我~ 2018-03-10 17:11:02
  • 提问者 慕运维7479159 #3
    离散化的目的是让数字出现种类减少,这个是目标
    下面举得例子, 不丢掉原始信息,同时平滑数据
    目标不是以分箱为目的,是以减少种类为目的,又不过分丢失数据
    非常感谢老师的耐心解答
    回复 有任何疑惑可以回复我~ 2018-03-10 17:13:48
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信