请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于混淆矩阵中衡量指标的选择

老师你好,在利用混淆矩阵选择各场景的衡量指标时我比较不能理解各指标的真正含义,那么我们是否可以更加灵活地选择指标?
例如:希望普通邮件(负样本)不要被判断为垃圾邮件(正样本),其中普通邮件就是所有实际为负的样本,因此我们指标分母选择混淆矩阵中的TN+FP,而被判断为垃圾邮件的普通邮件则是FP,所以我们应该关注的指标应该是FP/(TN+FP)。
希望所有的垃圾邮件尽可能地被判断出来,其中所有的垃圾邮件则是所有实际为正的样本,则分母选择FN+TP,而被判断出来的垃圾邮件则是TP,因此分子选择TP,即选择指标TP/(FN+TP).
希望判断为正常的交易(负样本)中尽可能不存在异常交易,其中判断为正常的交易是所有预测为负的样本,则分母选择TN+FN,而预测为正常交易实际是异常交易的则是FN,所以选择指标FN/(TN+FN)。

正在回答

1回答

要确定用什么指标更合适,先从任务出发确定关注的类别是什么。

比如如果是肿瘤预测,那宁可错杀健康样本,也不能漏了一个肿瘤样本,(之后做二次确认),因此分母是所有的肿瘤样本数,分子是检查出来的并且判断正确的肿瘤样本数,这里根据你判断肿瘤样本为正样本还是负样本,指标名称可能不同,假设肿瘤样本为正样本,那就关注TP/(TP+FN).

对于邮件检测,先确定你是重点要把垃圾邮件都找出来,还是不要把正常邮件放到了垃圾邮件,确定了目标,再选指标。

0 回复 有任何疑惑可以回复我~
  • 提问者 李逍遥李小妖 #1
    好的,谢谢老师,那么我这样理解的逻辑对吗?
    如果任务关注的是实际数据,那么我们就以混淆矩阵的行为分母(TN+FP或者FN+TP),如果任务关注的是预测后的数据,那么我们就以混淆矩阵的列为分母(TN+FN或者FP+TP)。
    回复 有任何疑惑可以回复我~ 2021-11-10 17:43:42
  • flare_zhao 回复 提问者 李逍遥李小妖 #2
    不是,主要看你对什么类别更感兴趣,不是区分训练还是预测的
    回复 有任何疑惑可以回复我~ 2021-11-10 19:29:23
  • 提问者 李逍遥李小妖 #3
    非常感谢!
    回复 有任何疑惑可以回复我~ 2021-11-15 10:31:07
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信