采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
请问等分箱后,每个箱子里面的数值是不一样的吗,
取边界值是否会导致同一个箱子内,有两个数值,
用平均值就不存在这个问题,15,15,24 好像没有离散化吧,请问老师怎么理解这个问题
同学你好,分箱使用的一个重要场景,就是离散化。离散化的目的,是让数字出现的“种类”减少(比如1,2,3,4,4共有五个数,四个“种类”数)。每个数字在离散化时都会被转化成另一个数字,分箱是一种具体手段,分箱并不要求转化过程后的箱子里的数一致。典型的,如果箱子里的数的跨服太大,比如,1,2,3,4,100,101,等深分两个箱,第二个箱为4,100,101,如果取平均数,把这三个数都转成他们的平均数,对这三个数来说,会失掉许多原始信息。这种情况下,边界值指代,就更合适,保留信息,同时平滑数据。
更正错别字 跨度
非常感谢老师耐心回答
离散化的目的是让数字出现种类减少,这个是目标 下面举得例子, 不丢掉原始信息,同时平滑数据 目标不是以分箱为目的,是以减少种类为目的,又不过分丢失数据 非常感谢老师的耐心解答
登录后可查看更多问答,登录/注册
快速胜任数据分析岗位,逆袭成为数据掘金时代的抢手人才!
1.2k 18
1.0k 13
911 10
862 10
1.1k 9