05 · 线性回归与模型诊断
医学数据分析与数据挖掘 · 理论知识演示(无代码)
← 演示列表 · 进入讲义
本节目标
学完本节,你将能够:
- 理解线性回归的模型形式与适用场景
- 区分简单线性回归与多重线性回归
- 理解系数、R²、调整 R² 的含义
- 理解线性回归的假定与模型诊断
模型与用途
线性回归用于刻画一个连续型因变量与一个或多个自变量之间的线性关系。医学中常用于“剂量–效应”“年龄–指标”等。
简单线性回归:只有一个自变量。模型形式为 y = β₀ + β₁x + ε,用最小二乘估计 β,并得到 R²、残差等。
系数与 R²
- 截距 β₀:x = 0 时 y 的期望。
- 斜率 β₁:x 每增加 1 单位,y 平均变化 β₁ 单位。
- R²(决定系数):模型解释的方差比例,0~1,越大拟合越好。
- 调整 R²:加入自变量个数惩罚,便于比较不同变量数的模型。
为什么用多重回归
加入多个自变量可以控制混杂、考察多个因素对结局的独立贡献。
模型形式:y = β₀ + β₁x₁ + … + βₚxₚ + ε。分类自变量需转为因子(软件会自动处理为虚拟变量)。
线性回归的假定
- 线性:y 与 x 的关系为线性。
- 残差正态:误差项近似正态分布。
- 方差齐性:残差方差在不同 x 水平上大致相等。
- 观测独立:样本之间相互独立。
诊断图的作用
可通过残差图、Q-Q 图、残差 vs 拟合值图等做简单诊断:
- 残差 vs 拟合值:看是否呈带状、有无明显模式(方差齐性、线性)。
- Q-Q 图:点是否近似在直线上(正态性)。
- 残差 vs 杠杆:识别强影响点。
小结
- 简单回归:y = β₀ + β₁x + ε;系数表示 x 对 y 的线性影响,R² 表示拟合优度。
- 多重回归:控制混杂,考察多因素独立贡献;分类变量以虚拟变量形式进入。
- 假定:线性、残差正态、方差齐性、独立;用残差图与 Q-Q 图做诊断。