02 · 数据质量评估与数据清洗

医学数据分析与数据挖掘 · 与讲义 02 配套(理论版)

← 演示列表 · 进入 02 讲义

本节目标

学完本节,你将能够:

  • 理解医学数据的类型、5V 特征与主要来源
  • 识别缺失/异常/重复/不一致等常见质量问题及成因
  • 理解 MCAR、MAR、MNAR 三种缺失机制及其对分析的影响
  • 理解数据清洗与集成/转换的核心概念与策略
  • 了解医学数据分析的技术挑战与伦理合规要点

大纲

  1. 医学数据基础
  2. 医学数据质量分析
  3. 医学数据清洗与数据集成/转换
  4. 挑战与伦理
  5. 小结

1 医学数据基础

理解数据,才能谈质量与清洗

1.1 医学数据类型

结构化

  • 以表格形式存在:病案首页、检验指标、用药记录
  • 字段含义清晰、单位明确,便于统计与建模

非结构化

  • 病历文本、影像、波形、组学/序列数据
  • 需要 NLP / 影像分析 / 序列分析等方法提取信息

1.2 医学数据 5V 特征

Volume(海量)

单院 TB 级,区域平台/大型队列可到 PB 级

Variety(多样)

表格 + 文本 + 影像 + 序列,多模态并存

Value(高价值)

支撑临床与科研,但也带来隐私与伦理约束

Velocity(实时)

监护/急诊持续产生,部分场景需近实时分析

Veracity(准确性)

质量直接决定结论可信度,是本章核心关注

1.3 医学数据来源

临床数据源

EHR/EMR、LIS/RIS/PACS、护理记录

科研数据源

RCT、队列研究、生物样本库与组学数据

公共数据源

公共卫生监测、医保结算、开放医学数据库

新兴数据源

可穿戴设备、移动医疗 App、家庭监测

2 医学数据质量分析

识别问题:缺失 · 异常 · 重复 · 不一致

2.1 质量分析的四类检查

完整性

缺失比例、缺失模式、缺失机制

准确性

异常值、录入错误、单位混用

一致性

编码/格式/单位/枚举值是否统一

合理性

是否符合业务逻辑与医学常识

方法论:统计与可视化 + 业务规则并行,才能减少误判。

2.2 脏数据类型与医学示例

类型 描述 医学数据示例
缺失数据 字段为空(NA/NULL/空字符串) 年龄未填写、检验结果缺失、失访
异常数据 超范围/违背常识/单位混用 血压 300 mmHg、身高 1700 cm、年龄为负
重复数据 同一记录多次出现 同一患者同次就诊的记录被重复导入
不一致数据 编码/格式/单位不统一 性别“男/女”与“1/2”混用;日期格式混乱

2.3 缺失值机制:MCAR / MAR / MNAR

MCAR(完全随机缺失)

缺失与任何变量无关;删行不一定引入偏差,但会降低样本量。

MAR(随机缺失)

缺失与已观测变量有关;可用建模/插补减小偏差。

MNAR(非随机缺失)

缺失与未观测值本身有关;常需敏感性分析并明确假设。

要点:机制不同,清洗策略与“偏差风险”不同。

2.4 异常值识别:3σ 与 IQR

3σ 原则:若近似正态,99.7% 数据落在 μ±3σ 内;超出可作为异常候选。

IQR(箱线图):用分位数定义箱体与“箱外点”,对偏态更稳健。

IQR = Q₃ - Q₁
下限 = Q₁ - 1.5 × IQR 上限 = Q₃ + 1.5 × IQR
μ-3σ μ+3σ μ 99.7% 的数据落在 μ±3σ 范围内
图:3σ 原则示意

2.5 重复与不一致:识别思路

重复数据

整行去重;或用业务主键(患者ID+就诊号+时间)识别完全/部分重复。

不一致数据

枚举值频次、单位检查、日期格式统一、逻辑校验(出院 ≥ 入院)。

3 医学数据清洗与集成/转换

把“不可用”变成“可分析”:策略与取舍

3.1 清洗原则

  • 可追溯:保留原始数据与清洗记录
  • 可复现:用脚本化流程而非手工改表
  • 有依据:删除/填补/截尾要说明理由与潜在偏差
建议:对关键处理(如异常值、缺失机制)做敏感性分析并报告。

3.2 缺失值处理

删除

  • 缺失比例低且近似 MCAR
  • 风险:样本量下降、统计效能变低

填补

  • 简单填补:均值/中位数/众数、分组填补
  • 进阶:多重插补、模型预测(需谨慎并披露假设)

3.3 异常值处理

  • 基于领域规则:先用医学合理范围过滤/标记
  • 基于统计规则:3σ、IQR 标记异常候选
  • 处理方式:删除、截尾(winsorize)、保留并做敏感性分析

3.4 标准化与一致性修复

单位统一

确保变量可比(同单位/同参考区间口径)

编码统一

诊断/药品/性别等映射到统一标准(如 ICD)

格式统一

日期、分隔符、缺失标记、大小写规则

去重与冲突解决

主键定义、记录合并规则、冲突字段取舍

3.5 数据集成与转换(概念)

  • 多源融合:HIS/LIS/PACS/随访对齐到同一患者/同次就诊
  • 连接方式:内连接、左连接、全连接等(基于主键)
  • 数据转换:标准化(Z-score)、归一化、对数变换、离散化
  • 特征工程:构造、选择、降维(如 PCA)服务研究问题
连接方式示意(共同主键 ID) 表 A ID: 1,2,3 表 B ID: 2,3,4 内连接 ID: 2,3 左连接 ID: 1,2,3(1 无匹配) 全连接 ID: 1,2,3,4(1/4 无匹配)
图:常见连接方式(用于多源数据融合)

4 挑战与伦理

高价值数据:技术与合规并重

4.1 技术挑战

  • 数据质量:缺失、噪声、异构性影响稳健性与可复用性
  • 隐私保护:匿名化/脱敏与数据可用性之间的平衡
  • 可解释性:黑箱模型的临床信任与落地问题
  • 标准化:多中心整合、术语与编码统一(ICD、SNOMED 等)

4.2 伦理与法规

知情同意

授权、目的告知、隐私保护承诺

数据安全

加密、访问控制、最小权限、审计

合规遵循

遵守相关法律法规与机构规范,跨境数据需审慎

最小必要

只使用完成目标所需的数据,降低风险面

小结

理解数据

类型、来源与 5V 决定质量策略

质量分析

缺失/异常/重复/不一致:规则 + 统计 + 可视化

清洗策略

删除/填补/截尾/标准化:透明、可追溯、可复现

集成转换

主键对齐、连接方式、转换与特征工程

伦理合规

知情同意、数据安全、法规遵循

谢谢

返回演示列表 · 进入 02 讲义