医学数据分析与数据挖掘 · 与讲义 02 配套(理论版)
学完本节,你将能够:
理解数据,才能谈质量与清洗
结构化
非结构化
单院 TB 级,区域平台/大型队列可到 PB 级
表格 + 文本 + 影像 + 序列,多模态并存
支撑临床与科研,但也带来隐私与伦理约束
监护/急诊持续产生,部分场景需近实时分析
质量直接决定结论可信度,是本章核心关注
EHR/EMR、LIS/RIS/PACS、护理记录
RCT、队列研究、生物样本库与组学数据
公共卫生监测、医保结算、开放医学数据库
可穿戴设备、移动医疗 App、家庭监测
识别问题:缺失 · 异常 · 重复 · 不一致
缺失比例、缺失模式、缺失机制
异常值、录入错误、单位混用
编码/格式/单位/枚举值是否统一
是否符合业务逻辑与医学常识
| 类型 | 描述 | 医学数据示例 |
|---|---|---|
| 缺失数据 | 字段为空(NA/NULL/空字符串) | 年龄未填写、检验结果缺失、失访 |
| 异常数据 | 超范围/违背常识/单位混用 | 血压 300 mmHg、身高 1700 cm、年龄为负 |
| 重复数据 | 同一记录多次出现 | 同一患者同次就诊的记录被重复导入 |
| 不一致数据 | 编码/格式/单位不统一 | 性别“男/女”与“1/2”混用;日期格式混乱 |
缺失与任何变量无关;删行不一定引入偏差,但会降低样本量。
缺失与已观测变量有关;可用建模/插补减小偏差。
缺失与未观测值本身有关;常需敏感性分析并明确假设。
3σ 原则:若近似正态,99.7% 数据落在 μ±3σ 内;超出可作为异常候选。
IQR(箱线图):用分位数定义箱体与“箱外点”,对偏态更稳健。
整行去重;或用业务主键(患者ID+就诊号+时间)识别完全/部分重复。
枚举值频次、单位检查、日期格式统一、逻辑校验(出院 ≥ 入院)。
把“不可用”变成“可分析”:策略与取舍
删除
填补
确保变量可比(同单位/同参考区间口径)
诊断/药品/性别等映射到统一标准(如 ICD)
日期、分隔符、缺失标记、大小写规则
主键定义、记录合并规则、冲突字段取舍
高价值数据:技术与合规并重
授权、目的告知、隐私保护承诺
加密、访问控制、最小权限、审计
遵守相关法律法规与机构规范,跨境数据需审慎
只使用完成目标所需的数据,降低风险面
类型、来源与 5V 决定质量策略
缺失/异常/重复/不一致:规则 + 统计 + 可视化
删除/填补/截尾/标准化:透明、可追溯、可复现
主键对齐、连接方式、转换与特征工程
知情同意、数据安全、法规遵循