06 · 逻辑回归与分类评估（演示）

06 · 逻辑回归与分类评估

医学数据分析与数据挖掘 · 理论知识演示（无代码）

← 演示列表 · 进入讲义

本节目标

学完本节，你将能够：

理解二分类问题为何不用线性回归
理解 logit 与优势比（OR）的含义
理解混淆矩阵、灵敏度、特异度、准确率
理解 ROC 曲线与 AUC 的含义

1. 二分类与 logit

因变量是 0/1 时怎么办

为什么不用线性回归

当因变量为二分类（如有效/无效、发病/未发病）时，线性回归不再适用：预测值可能超出 0～1，且误差项不满足正态等假定。

逻辑回归的思路

用 logit(p) = log(p/(1−p)) 与自变量建立线性关系，保证预测的是“概率”，且在 0～1 之间。结果常以优势比（OR）表示：某因素增加 1 单位时，发生优势（p/(1−p)）变为原来的 exp(β) 倍。

2. 系数与 OR 解读

系数与优势比

模型给出的是log(OR)的估计，即系数 β。
exp(β) = OR：x 每增加 1 单位，发生优势变为原来的 OR 倍。
OR > 1：该因素增加时，发生概率上升；OR < 1：发生概率下降。
应同时报告OR 的置信区间。

3. ROC 与混淆矩阵

分类效果的评估

混淆矩阵

将预测类别与真实类别交叉制表，得到：

真阳性（TP）、假阳性（FP）、真阴性（TN）、假阴性（FN）。
灵敏度 = TP/(TP+FN)：实际阳性中被正确识别的比例。
特异度 = TN/(TN+FP)：实际阴性中被正确识别的比例。
准确率 = (TP+TN)/总数：整体正确比例。

ROC 曲线与 AUC

ROC 曲线：以“1−特异度”为横轴、灵敏度为纵轴，随分类阈值变化得到的曲线。

AUC（曲线下面积）：越接近 1，判别能力越强；0.5 相当于随机猜测。

不依赖单一阈值，可综合评估模型在不同阈值下的表现。

小结

二分类用逻辑回归：logit(p) 与自变量线性关系，结果用 OR 解读。
系数 β 对应 log(OR)，exp(β) 为 OR；报告 OR 及其置信区间。
混淆矩阵：TP/FP/TN/FN → 灵敏度、特异度、准确率。
ROC 与 AUC：综合评估分类性能，AUC 越接近 1 越好。

谢谢

返回演示列表 · 进入 06 讲义