07 · 聚类与降维
医学数据分析与数据挖掘 · 理论知识演示(无代码)
← 演示列表 · 进入讲义
本节目标
学完本节,你将能够:
- 理解无监督学习与聚类的目的
- 理解 K-means 与层次聚类的基本思路
- 理解距离与标准化的作用
- 理解 PCA 降维的概念与方差解释
1. 聚类思路与 K-means
无监督:没有标签的分组
什么是聚类
聚类是无监督学习:在没有“标签”的情况下,根据变量把样本分成若干组,使组内相似、组间差异大。
医学中可用于亚型发现、人群分层等。
无监督与距离
聚类依据的是样本间的“距离”:
- 常用:欧氏距离、曼哈顿距离等。
- 数值变量通常需先标准化,避免量纲(单位)影响,否则大数值变量会主导距离。
K-means 简述
需事先指定类数 k。算法迭代:先选 k 个中心,把每个样本归到最近的中心;再按每类样本重新计算中心;重复直到稳定。得到每样本的所属类与各类中心。
层次聚类的思路
从“每个样本为一类”开始,逐步合并最相近的两类,得到树状图(dendrogram);按高度切割即得到类数。不需事先指定 k,但需在树状图上选择切割高度或类数。
什么是 PCA
主成分分析(PCA)是一种降维方法:用少数几个“主成分”(原变量的线性组合)保留大部分方差,便于可视化和后续分析。
医学中常用于多指标综合、共线性处理前的维度压缩。
主成分与方差
- 第一主成分:方向上方差最大的线性组合。
- 后续主成分:与前面主成分正交、且剩余方差最大。
- 方差比例:每个主成分解释的方差占总方差的比例;前几个主成分的累计比例表示降维后保留了多少信息。
小结
- 聚类:无监督,组内相似、组间差异大;常用 K-means(需指定 k)与层次聚类(得树状图再切分)。
- 距离与标准化:数值变量先标准化,避免量纲影响。
- PCA:用少数主成分保留大部分方差,用于降维、可视化与共线性处理。