06 · 逻辑回归与分类评估
医学数据分析与数据挖掘 · 理论知识演示(无代码)
← 演示列表 · 进入讲义
本节目标
学完本节,你将能够:
- 理解二分类问题为何不用线性回归
- 理解 logit 与优势比(OR)的含义
- 理解混淆矩阵、灵敏度、特异度、准确率
- 理解 ROC 曲线与 AUC 的含义
1. 二分类与 logit
因变量是 0/1 时怎么办
为什么不用线性回归
当因变量为二分类(如有效/无效、发病/未发病)时,线性回归不再适用:预测值可能超出 0~1,且误差项不满足正态等假定。
逻辑回归的思路
用 logit(p) = log(p/(1−p)) 与自变量建立线性关系,保证预测的是“概率”,且在 0~1 之间。结果常以优势比(OR)表示:某因素增加 1 单位时,发生优势(p/(1−p))变为原来的 exp(β) 倍。
系数与优势比
- 模型给出的是log(OR)的估计,即系数 β。
- exp(β) = OR:x 每增加 1 单位,发生优势变为原来的 OR 倍。
- OR > 1:该因素增加时,发生概率上升;OR < 1:发生概率下降。
- 应同时报告OR 的置信区间。
混淆矩阵
将预测类别与真实类别交叉制表,得到:
- 真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN)。
- 灵敏度 = TP/(TP+FN):实际阳性中被正确识别的比例。
- 特异度 = TN/(TN+FP):实际阴性中被正确识别的比例。
- 准确率 = (TP+TN)/总数:整体正确比例。
ROC 曲线与 AUC
ROC 曲线:以“1−特异度”为横轴、灵敏度为纵轴,随分类阈值变化得到的曲线。
AUC(曲线下面积):越接近 1,判别能力越强;0.5 相当于随机猜测。
不依赖单一阈值,可综合评估模型在不同阈值下的表现。
小结
- 二分类用逻辑回归:logit(p) 与自变量线性关系,结果用 OR 解读。
- 系数 β 对应 log(OR),exp(β) 为 OR;报告 OR 及其置信区间。
- 混淆矩阵:TP/FP/TN/FN → 灵敏度、特异度、准确率。
- ROC 与 AUC:综合评估分类性能,AUC 越接近 1 越好。