07 · 聚类与降维

医学数据分析与数据挖掘 · 理论知识演示(无代码)

← 演示列表 · 进入讲义

本节目标

学完本节,你将能够:

  • 理解无监督学习与聚类的目的
  • 理解 K-means 与层次聚类的基本思路
  • 理解距离与标准化的作用
  • 理解 PCA 降维的概念与方差解释

1. 聚类思路与 K-means

无监督:没有标签的分组

什么是聚类

聚类是无监督学习:在没有“标签”的情况下,根据变量把样本分成若干组,使组内相似、组间差异大

医学中可用于亚型发现人群分层等。

无监督与距离

聚类依据的是样本间的“距离”

  • 常用:欧氏距离、曼哈顿距离等。
  • 数值变量通常需先标准化,避免量纲(单位)影响,否则大数值变量会主导距离。

K-means 简述

需事先指定类数 k。算法迭代:先选 k 个中心,把每个样本归到最近的中心;再按每类样本重新计算中心;重复直到稳定。得到每样本的所属类与各类中心

2. 层次聚类简介

从细到粗的合并

层次聚类的思路

从“每个样本为一类”开始,逐步合并最相近的两类,得到树状图(dendrogram);按高度切割即得到类数。不需事先指定 k,但需在树状图上选择切割高度或类数。

3. PCA 概念

主成分分析:降维与方差保留

什么是 PCA

主成分分析(PCA)是一种降维方法:用少数几个“主成分”(原变量的线性组合)保留大部分方差,便于可视化和后续分析。

医学中常用于多指标综合共线性处理前的维度压缩

主成分与方差

  • 第一主成分:方向上方差最大的线性组合。
  • 后续主成分:与前面主成分正交、且剩余方差最大。
  • 方差比例:每个主成分解释的方差占总方差的比例;前几个主成分的累计比例表示降维后保留了多少信息。

小结

  • 聚类:无监督,组内相似、组间差异大;常用 K-means(需指定 k)与层次聚类(得树状图再切分)。
  • 距离与标准化:数值变量先标准化,避免量纲影响。
  • PCA:用少数主成分保留大部分方差,用于降维、可视化与共线性处理。

谢谢

返回演示列表 · 进入 07 讲义