07 · 聚类与降维（演示）

07 · 聚类与降维

医学数据分析与数据挖掘 · 理论知识演示（无代码）

学完本节，你将能够：

无监督：没有标签的分组

聚类是无监督学习：在没有“标签”的情况下，根据变量把样本分成若干组，使组内相似、组间差异大。

医学中可用于亚型发现、人群分层等。

聚类依据的是样本间的“距离”：

需事先指定类数 k。算法迭代：先选 k 个中心，把每个样本归到最近的中心；再按每类样本重新计算中心；重复直到稳定。得到每样本的所属类与各类中心。

从细到粗的合并

从“每个样本为一类”开始，逐步合并最相近的两类，得到树状图（dendrogram）；按高度切割即得到类数。不需事先指定 k，但需在树状图上选择切割高度或类数。

主成分分析：降维与方差保留

主成分分析（PCA）是一种降维方法：用少数几个“主成分”（原变量的线性组合）保留大部分方差，便于可视化和后续分析。

医学中常用于多指标综合、共线性处理前的维度压缩。