请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师,请问分类问题有什么方法比较?

譬如目标变量违约为1和不违约为0,分布是0/1分布,但不同组(如:男女)的平均数还是有业务意义(违约率),这时候是用均值(违约率)比较还是用其它什么方法比较分组对目标变量的影响是否显著不同?

正在回答

1回答

Angelayuan 2019-09-13 23:54:50

好问题。

  1. 在只有一个变量且为分类变量并且只有两个水平的时候,我们关心的指标是"比例(proportion)", 它的计算方法跟均值类似(把所有0和1加起来再除以总个数)。如果我们想考察总体的proportion是否等于某个数字的时候,就是对一个总体的proportion的检验,类似于对一个总体均值的检验。样本propotion近似服从正态分布,这个正态分布的均值就是你的零假设中的prportion的数字(记为p),方差就是p(1-p)/n,其中n为样本容量。那么后续的步骤其实就跟对一个总体均值的检验(Z检验)一样了。

  2. 在有两个分类变量且至少其中一个变量为两个水平的时候,我们关心的指标还是"比例(proportion)"。这个时候我们想考察的是两个总体proportion是否相等,类似于对两个正态总体均值差的检验。样本比例差近似服从正态分布,这个正态分布的均值为0(零假设中的数字),方差为联合方差,等于p1(1-p1)/n1 + p2(1-p2)/n2。这里的p1, p2是样本比例。

  3. 如果分类变量的水平大于等于3,则需要使用卡方拟合检验(chi-square goodness of fit)。

0 回复 有任何疑惑可以回复我~
  • 提问者 Jazz_Qi #1
    老师,对于您回复的第2点有个疑问,比例差检验的H0是两组的比例差为0,意味检验两组比例是否相等。卡方独立性检验的H0是两变量间没有关联,虽然不是用比例,但其实只是用了随机时候的理论频数(随机时理论频率*总数)来比较,还是比例。
    问题:我感觉在有两个二分类变量时比例是否相等检验和2*2的卡方独立性检验好像是一回事?
    回复 有任何疑惑可以回复我~ 2019-09-14 10:59:27
  • Angelayuan 回复 提问者 Jazz_Qi #2
    你说的对。两者在数学上是等价的,你用z检验得到的结果 与 你用卡方检验得到的结果 两者是一致的。值得注意的是,使用z检验是为了回答两个总体的proportion是否相等这个问题;而使用卡方检验是为了回答两个分类变量是否独立;所以两者所要回答的问题不一样,虽然在特殊情况下,数学上是等价的。
    回复 有任何疑惑可以回复我~ 2019-09-14 13:33:04
  • 提问者 Jazz_Qi #3
    感谢老师。
    回复 有任何疑惑可以回复我~ 2019-09-15 20:43:50
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信