02 · 数据质量评估与数据清洗（演示）

02 · 数据质量评估与数据清洗

医学数据分析与数据挖掘 · 与讲义 02 配套（理论版）

← 演示列表 · 进入 02 讲义

本节目标

学完本节，你将能够：

理解医学数据的类型、5V 特征与主要来源
识别缺失/异常/重复/不一致等常见质量问题及成因
理解 MCAR、MAR、MNAR 三种缺失机制及其对分析的影响
理解数据清洗与集成/转换的核心概念与策略
了解医学数据分析的技术挑战与伦理合规要点

大纲

医学数据基础
医学数据质量分析
医学数据清洗与数据集成/转换
挑战与伦理
小结

1 医学数据基础

理解数据，才能谈质量与清洗

1.1 医学数据类型

结构化

以表格形式存在：病案首页、检验指标、用药记录
字段含义清晰、单位明确，便于统计与建模

非结构化

病历文本、影像、波形、组学/序列数据
需要 NLP / 影像分析 / 序列分析等方法提取信息

1.2 医学数据 5V 特征

Volume（海量）

单院 TB 级，区域平台/大型队列可到 PB 级

Variety（多样）

表格 + 文本 + 影像 + 序列，多模态并存

Value（高价值）

支撑临床与科研，但也带来隐私与伦理约束

Velocity（实时）

监护/急诊持续产生，部分场景需近实时分析

Veracity（准确性）

质量直接决定结论可信度，是本章核心关注

1.3 医学数据来源

临床数据源

EHR/EMR、LIS/RIS/PACS、护理记录

科研数据源

RCT、队列研究、生物样本库与组学数据

公共数据源

公共卫生监测、医保结算、开放医学数据库

新兴数据源

可穿戴设备、移动医疗 App、家庭监测

2 医学数据质量分析

识别问题：缺失 · 异常 · 重复 · 不一致

2.1 质量分析的四类检查

完整性

缺失比例、缺失模式、缺失机制

准确性

异常值、录入错误、单位混用

一致性

编码/格式/单位/枚举值是否统一

合理性

是否符合业务逻辑与医学常识

方法论：统计与可视化 + 业务规则并行，才能减少误判。

2.2 脏数据类型与医学示例

类型	描述	医学数据示例
缺失数据	字段为空（NA/NULL/空字符串）	年龄未填写、检验结果缺失、失访
异常数据	超范围/违背常识/单位混用	血压 300 mmHg、身高 1700 cm、年龄为负
重复数据	同一记录多次出现	同一患者同次就诊的记录被重复导入
不一致数据	编码/格式/单位不统一	性别“男/女”与“1/2”混用；日期格式混乱

2.3 缺失值机制：MCAR / MAR / MNAR

MCAR（完全随机缺失）

缺失与任何变量无关；删行不一定引入偏差，但会降低样本量。

MAR（随机缺失）

缺失与已观测变量有关；可用建模/插补减小偏差。

MNAR（非随机缺失）

缺失与未观测值本身有关；常需敏感性分析并明确假设。

要点：机制不同，清洗策略与“偏差风险”不同。

2.4 异常值识别：3σ 与 IQR

3σ 原则：若近似正态，99.7% 数据落在 μ±3σ 内；超出可作为异常候选。

IQR（箱线图）：用分位数定义箱体与“箱外点”，对偏态更稳健。

IQR = Q₃ - Q₁

下限 = Q₁ - 1.5 × IQR　上限 = Q₃ + 1.5 × IQR

图：3σ 原则示意

2.5 重复与不一致：识别思路

重复数据

整行去重；或用业务主键（患者ID+就诊号+时间）识别完全/部分重复。

不一致数据

枚举值频次、单位检查、日期格式统一、逻辑校验（出院 ≥ 入院）。

3 医学数据清洗与集成/转换

把“不可用”变成“可分析”：策略与取舍

3.1 清洗原则

可追溯：保留原始数据与清洗记录
可复现：用脚本化流程而非手工改表
有依据：删除/填补/截尾要说明理由与潜在偏差

建议：对关键处理（如异常值、缺失机制）做敏感性分析并报告。

3.2 缺失值处理

删除

缺失比例低且近似 MCAR
风险：样本量下降、统计效能变低

填补

简单填补：均值/中位数/众数、分组填补
进阶：多重插补、模型预测（需谨慎并披露假设）

3.3 异常值处理

基于领域规则：先用医学合理范围过滤/标记
基于统计规则：3σ、IQR 标记异常候选
处理方式：删除、截尾（winsorize）、保留并做敏感性分析

3.4 标准化与一致性修复

单位统一

确保变量可比（同单位/同参考区间口径）

编码统一

诊断/药品/性别等映射到统一标准（如 ICD）

格式统一

日期、分隔符、缺失标记、大小写规则

去重与冲突解决

主键定义、记录合并规则、冲突字段取舍

3.5 数据集成与转换（概念）

多源融合：HIS/LIS/PACS/随访对齐到同一患者/同次就诊
连接方式：内连接、左连接、全连接等（基于主键）
数据转换：标准化（Z-score）、归一化、对数变换、离散化
特征工程：构造、选择、降维（如 PCA）服务研究问题

图：常见连接方式（用于多源数据融合）

4 挑战与伦理

高价值数据：技术与合规并重

4.1 技术挑战

数据质量：缺失、噪声、异构性影响稳健性与可复用性
隐私保护：匿名化/脱敏与数据可用性之间的平衡
可解释性：黑箱模型的临床信任与落地问题
标准化：多中心整合、术语与编码统一（ICD、SNOMED 等）

4.2 伦理与法规

知情同意

授权、目的告知、隐私保护承诺

数据安全

加密、访问控制、最小权限、审计

合规遵循

遵守相关法律法规与机构规范，跨境数据需审慎

最小必要

只使用完成目标所需的数据，降低风险面

小结

理解数据

类型、来源与 5V 决定质量策略

质量分析

缺失/异常/重复/不一致：规则 + 统计 + 可视化

清洗策略

删除/填补/截尾/标准化：透明、可追溯、可复现

集成转换

主键对齐、连接方式、转换与特征工程

伦理合规

知情同意、数据安全、法规遵循

谢谢

返回演示列表 · 进入 02 讲义