基因注释与功能富集分析
0. 教程目标
用一组真实的 基因符号(Gene Symbol),在浏览器里完成:
- 使用 STRING 构建蛋白互作网络(PPI)。
- 使用 Enrichr 进行 GO / KEGG 富集分析。
- 学会正确解读富集结果。
前提假设:
已经知道什么是基因 symbol(如 TP53、EGFR),并能在浏览器中复制粘贴文本。
1. 示例基因列表(复制即可使用)
下面是一组与细胞周期和癌症相关的经典基因,用于教学示例:
先练习使用此示例基因列表,成功跑通流程后再替换为你自己的基因。
小提示:大多数在线数据库都接受这种“一行一个 symbol”的格式。
2. 使用 STRING 构建蛋白互作网络 (PPI)
STRING 官方网站:https://string-db.org
步骤 1:打开 STRING 网站
- 浏览器输入:
https://string-db.org
- 点击 “Multiple proteins”
步骤 2:粘贴基因列表
- 复制上面的基因列表
- 粘贴到 STRING 文本框
- 选择物种:Homo sapiens
物种选错 = 结果完全错误!
2.2 参数设置
几个常用参数
- Confidence score:推荐 0.4 起步
- Network edges:可选择证据来源
- Interactors:是否允许 STRING 自动扩展节点
2.3 结果解读
(1) 网络结构图
圆圈 = 蛋白;连线 = 相互作用;颜色 = 证据类型。
(2) 节点信息
点击节点可查看功能、别名、相互作用证据等。
(3) 富集分析
- GO Biological Process
- KEGG Pathways
优先关注 FDR < 0.05 的条目。
3. 使用 Enrichr 进行富集分析
Enrichr 网站:https://maayanlab.cloud/Enrichr/
3.2 选择基因集库
- GO Biological Process
- KEGG
- Reactome
3.3 结果解读
关键列
- Term
- P-value
- Adjusted p-value(最重要)
- Combined score
- g:Profiler
- DAVID
- Metascape
5. 练习与思考题
练习
- 使用 STRING 构建 PPI 并截图
- 记录前 5 个 KEGG 通路
- 使用 Enrichr 跑富集分析
- 比较 STRING 与 Enrichr 是否一致
思考题
- 为什么需要 FDR 校正?
- Hub 基因是否一定最重要?
- 遇到不相关通路如何处理?