采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
譬如目标变量违约为1和不违约为0,分布是0/1分布,但不同组(如:男女)的平均数还是有业务意义(违约率),这时候是用均值(违约率)比较还是用其它什么方法比较分组对目标变量的影响是否显著不同?
好问题。
在只有一个变量且为分类变量并且只有两个水平的时候,我们关心的指标是"比例(proportion)", 它的计算方法跟均值类似(把所有0和1加起来再除以总个数)。如果我们想考察总体的proportion是否等于某个数字的时候,就是对一个总体的proportion的检验,类似于对一个总体均值的检验。样本propotion近似服从正态分布,这个正态分布的均值就是你的零假设中的prportion的数字(记为p),方差就是p(1-p)/n,其中n为样本容量。那么后续的步骤其实就跟对一个总体均值的检验(Z检验)一样了。
在有两个分类变量且至少其中一个变量为两个水平的时候,我们关心的指标还是"比例(proportion)"。这个时候我们想考察的是两个总体proportion是否相等,类似于对两个正态总体均值差的检验。样本比例差近似服从正态分布,这个正态分布的均值为0(零假设中的数字),方差为联合方差,等于p1(1-p1)/n1 + p2(1-p2)/n2。这里的p1, p2是样本比例。
如果分类变量的水平大于等于3,则需要使用卡方拟合检验(chi-square goodness of fit)。
老师,对于您回复的第2点有个疑问,比例差检验的H0是两组的比例差为0,意味检验两组比例是否相等。卡方独立性检验的H0是两变量间没有关联,虽然不是用比例,但其实只是用了随机时候的理论频数(随机时理论频率*总数)来比较,还是比例。 问题:我感觉在有两个二分类变量时比例是否相等检验和2*2的卡方独立性检验好像是一回事?
你说的对。两者在数学上是等价的,你用z检验得到的结果 与 你用卡方检验得到的结果 两者是一致的。值得注意的是,使用z检验是为了回答两个总体的proportion是否相等这个问题;而使用卡方检验是为了回答两个分类变量是否独立;所以两者所要回答的问题不一样,虽然在特殊情况下,数学上是等价的。
感谢老师。
登录后可查看更多问答,登录/注册
清晰的统计学知识网络+与编程结合的讲解方式+数据可视化展示
862 6
916 5
1.0k 5
863 5
858 4